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仆 
) 人 个 绍 


Python for Informatics (中 文 版 ) 《信息 管理 专业 Python 教程 》 针 对 编程 初学 者 ， 介 绍 如 何 
编程 ， 使 用 Python 进 行 数据 处 理 和 与 数据 可 视 化 。 


本 书 旨 在 透 过 数据 探索 的 镜头 ， 向 学 生 介绍 编程 与 计算 思维 。Python 可 视 为 远 比 电子 表格 强 
大 的 问题 解决 工具 。 Python 是 一 种 易于 使 用 与 学 习 的 编程 语言， 在 Windows、Mac 与 Linux 计 
算 机 上 都 可 以 免费 获取 。 


本 书 采 用 "署名 - 非 商 业 性 使 用 -相同 方式 共享 许可 形式 ， 提 供 各 种 电子 格式 的 免费 下 载 。 另 
外 ， 本 书 配套 一 门 免费 在 线 自 学 课程 (http://www.pythonlearn.com)。 


书 中 所 有 内 容 材 料 是 开放 的 ， 可 用 于 改编 。 


翻译 说 明 


得 益 于 开源 与 共享 精神 ， 根 据 知 识 共 享 协议 CC-BY-SA， 经 由 作者 授权 ， 这 本 书 的 简体 中 文 版 
翻译 与 开放 出 版 得 以 顺利 完成 。 


翻译 工作 由 范 炜 牵头 ， 得 到 四 川 大 学 公共 
实验 病 审 校 了 本 书 并 提出 宝贵 意见 ， 信 息 
翻译 与 校对 。 


理学 院 信息 管理 综合 实验 室 的 大 力 支持 ， 胡 康 林 
理 与 信息 系统 专业 两 位 本 科 生 参与 了 部 分 章节 的 


。 张 功 卫 翻译 第 1、3、6、8、9、10 章 及 附录 。 
。 王 骏 翻 译 第 2、4、5、7 章 。 
。 范 炜 翻译 第 11-16 章 ， 负 责 统 稿 与 定稿 。 


由 于 精力 与 水 平 有 限 ， 书 中 翻译 错误 在 所 难免 。 欢 迎 各 位 读者 批评 指正 ， 我 们 会 汲取 建议 ， 
及 时 进行 修订 。 


勘误 贡献 


感谢 吴 志 和 还 纠正 了 文中 的 一 些 笔 误 和 提出 Gitbook Markdown 语 法 解析 问题 。 


译 者 序 


翻译 普通 被 认为 出 力 不 讨好 ， 这 次 我 把 翻译 当成 一 件 专业 情结 的 活 来 干 了 。 


本 序 由 4 个 问题 和 1 个 阅读 说 明 组 成 ， 希 望 能 引起 相关 读者 的 共鸣 。 


为 什么 要 冠 以 信息 管理 专业 之 名 ? 


Informatics 在 中 文 语 境 下 是 个 神秘 的 术语 ， 有 情报 学 、 信 息 学 等 说 法 ， 但 这 两 个 名 称 说 实话 
都 不 合适 。 国 内 的 情报 学 不 是 搞 间 谍 的 ， 信 息 学 是 搞 通 讯 编码 的 。 在 信息 的 世界 里 ， 美 丽 的 
误会 无 勾 不 在 。 通 俗 讲 ，Informatics 属 于 信息 管理 大 范畴 ， 是 信息 管理 活动 的 高 级 阶段 ， 通 过 
数据 分 析 与 挖掘 ， 提 供 对 管理 与 决策 有 价值 的 信息 ( 即 情报 ) 。 


信息 管理 听 起 来 非常 有 魅惑 力 。 从 早期 一 波 波 的 数字 化 滔 潮 到 当代 的 大 数据 ， 信 息 管 理 专业 
无 可 争议 地 处 在 信息 化 时 代 变 革 的 先锋 阵营 ， 一 直 和 与 各 类 型 数据 (这 里 可 视 为 信息 的 栽 体 ) 
打交道 。 这 个 专业 的 业务 主线 是 围绕 数据 (信息 ) 的 创建 、 采 集 、 传 递 、 加 工 与 分 析 利 用 

等 。 


为 什么 信息 管理 专业 要 学 习 编 程 ? 


信息 管理 离 不 开 信 息 技术 ， 倒 不 如 说 各 类 信息 技术 是 为 解决 信息 管理 业务 中 的 实际 问题 而 被 
发 明 的 。 依 据 此 理 ， 学 习 编 程 是 用 技术 方法 与 工具 来 解决 信息 管理 中 的 具体 问题 和 提高 工作 
效率 。 这 看 似 有 道理 ， 但 现实 中 编程 让 这 个 专业 的 学 生 感 到 困惑 和 畏惧 ， 常 常 与 计算 机 专业 
的 编程 课 混淆 侧重 ， 学 起 来 既 无 趣 又 痛苦 。 


为 什么 是 Python ? 


C 语 言 是 大 多 数 信息 管理 专业 开设 的 第 一 门 编程 课 。 母 庸 置疑 ， 学 习 C 语 言 首 先 从 编程 思想 上 
武装 了 初学 者 。 然 而 ， 信 息 管 理 专 业 的 学 生 未 来 并 不 打算 从 事 编 程 语言 本 身 的 研究 ， 更 多 想 
要 用 编程 工具 来 解决 实际 问题 。 另 外， 信息 管理 专业 课程 体系 里 并 没有 过 多 的 编程 深入 课 
程 ， 编 程 人 门 与 应 用 衔接 比较 薄弱 或 直接 偏向 了 信息 系统 开发 (管理 信息 系统 方向 ) ， 学 生 
从 C 语 言 向 其 他 眼花 综 乱 的 高 级 编程 语言 转变 感到 困难 ， 导 致 学 习 的 成 就 感 普通 不 高 。 学 了 编 
程 ， 拿 着 一 张 全国 计 算 机 等 级 考试 C 语 言 证 书 ， 没 有 什么 实质 意义 ， 运 用 不 起 来 是 最 大 的 问题 
所 在 。 


Python 语言 的 简洁 、 功 能 全 面 性 与 易于 学 习 等 特点 在 编程 语言 人 门 级 广泛 流行 ， 近 些 年 可 以 
说 是 深 得 民心 。 除 了 语言 本 身 的 优点 之 外 ，Python 这 门 语言 非常 适合 信息 管理 专业 ， 原 因 在 
于 它 的 功能 性 全 面 渗透 到 信息 管理 的 各 个 业务 环节 ， 如 书 中 介绍 的 文本 处 理 、 数 据 采 集 、 数 
据 库 存储 与 调用 、Web Services 等 主题 经 由 Python 做 到 了 很 好 的 知识 串联 。 可 以 说 ，Python 
提供 了 编程 学 习 和 与 技术 应 用 贯通 的 统一 化 平台 。 


这 本 书 将 Python 语言 的 讲解 与 具体 数据 管理 问题 相 结合 ， 在 一 定 程度 做 到 了 学 会 即 用 ， 是 目 
前 比较 少见 的 适合 信息 管理 专业 的 编程 人 门 教材 。 


为 什么 要 翻译 这 本 书 ? 


开篇 也 提 到 这 是 带 有 专业 情结 的 事 儿 。 过 去 ， 我 鲁 是 国内 最 早 一 批 信息 管理 与 信息 系统 专业 
的 学 生 ， 现 在 ， 我 是 这 个 专业 的 一 名 教 病 。 十 多 年 来 与 这 个 专业 共同 成 上 长， 自身 也 经 历 了 对 
编程 的 种 种 迷茫 与 困惑 。 随 着 信息 技术 的 快速 变化 ， 教 学 内 容 和 与 手段 的 与 时 俱 进 也 显得 非常 
必要 。 工 作 之 后 ， 我 看 到 了 Python 带 来 打通 信息 管理 专业 编程 学 习 症 结 的 可 能 性 ， 开 始 翻 阅 
各 类 Python 书 籍 。 眼 前 的 这 本 书 让 人 眼前 一 亮 ， 我 非常 认同 本 书 作者 的 教学 理念 ， 他 的 努力 
让 信息 管理 专业 学 生 能 够 较为 轻松 愉悦 地 学 习 一 门 功能 强大 的 应 用 型 高 级 编程 语言 。 

通过 翻译 这 本 书 ， 和 希望 更 多 信息 管理 专业 的 学 生 能 够 找到 编程 人 门 的 钥匙 ， 将 Python 作为 通 
向 数据 管理 与 分 析 技 能 养 成 的 一 座 桥梁 ， 少 走 一 些 弯 路 。 对 我 而 言 ， 更 多 是 在 未 来 的 教学 中 
引入 Python 内 容 ， 设 计 出 适合 国内 信息 管理 专业 的 数据 技能 类 应 用 型 课程 。 


如 何 阅读 这 本 书 ? 


虽然 阅读 这 本 书 不 需要 什么 技术 基础 ， 但 最 好 具备 操作 系统 、 数 据 库 与 互联 网 的 一 些 基础 知 


职 。 


本 书 内 容 分 为 两 大 部 分 : 第 1-10 章 涵盖 Python 语言 的 基础 知识 ; 第 11-16 章 是 Python 在 数据 管 
理 与 分 析 中 的 应 用 。 书 中 的 所 有 示例 与 代码 均 可 免费 下 载 ， 建 议 边 读书 边 操 作 ， 手 脑 并 用 收 
获 才 会 更 多 。12-15 章 的 程序 代码 相对 复杂 ， 如 果 感 到 自学 难度 大 ， 可 先 按照 书 中 讲解 ， 执 行 
源 代码 ， 输 出 结果 查看 效果 ， 走 通 之 后 再 回 过 头 来 慢 慢 研究 代码 细节 。 


工 欲 善 其 事 必 先 利 其 器 。 正 如 本 书 的 副标题 ， 希 望 Python 能 成 为 你 专业 学 习 道 路 上 探索 信息 
世界 的 一 把 利器 。 


致谢 


首先 要 感谢 美国 密 西 根 大 学 信息 学 院 Charles Severance 教 授 的 慷慨 支持 ， 使 得 本 书 得 以 顺利 
自由 出 版 。 


技术 翻译 不 是 简单 的 文字 工作 ， 费 时 费心 费力 ， 事 无 巨细 也 难以 做 到 不 出 错 。 从 项 目 启 动 到 
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感谢 一 路 有 你 们 ! 


范 炜 
四 川 大 学 信息 管理 技术 系 
2015 年 6 月 于 雪 城 


仿 


者 序 


信息 管理 专业 Python 教 程 : 一 本 混 编 的 开源 书 


在 学 术 界 ， 科 研 人 员 不 断 被 洗脑 的 是 “发 表 或 消亡 ”从 头 开 始 创造 ， 做 出 原始 创新 。 本 书 不 是 
原始 创新 ， 而 是 对 《 像 计算 机 科学 家 一 样 思考 Python》 (以 下 简称 为 《思考 Python》) 
(Allen B. Downey, Jeff Elkner 等 著 ) 这 本 书 的 一 次 混 编 实验 。 


2009 年 12 月 ， 我 在 密 西 根 大 学 准备 讲授 “S1502- 网 络 编程 "这 门 课 (连续 第 五 学 期 开设 ) ， 决 
定 开始 编写 一 本 侧重 于 数据 探索 ， 而 不 是 理解 算法 与 抽象 理论 的 Python 教 材 。 我 的 S1502 课 程 
目标 是 培养 学 生 使 用 Python 的 终生 数据 处 理 技能 。 我 的 学 生 中 间 很 少 有 人 打算 成 为 计算 机 程 
序 员 。 相 反 ， 他 们 的 职业 规划 是 图 书馆 员 、 经 理 、 律 症 、 生 物 学 家 、 经 济 学 家 等 。 他 们 希望 
在 所 从 事 的 行业 中 能 熟练 运用 技术 。 


我 似乎 找 不 到 适合 这 门 课 的 Python 教材 ， 侧 重 以 数据 为 中 心 的 ， 因 此 我 决定 要 编写 这 样 一 本 
书 。 我 打算 利用 假期 时 间 从 头 编 写 这 本 书 ， 所 幸 ， 在 放假 前 三 周 的 教 职 工 会 议 上 ，Atul 
Prakash 博 士 带 给 我 一 本 书 《 思 考 Python》， 他 在 那个 学 期 使 用 这 本 书 讲授 Python 课程 。 这 是 
一 本 很 棒 的 计算 机 专业 教材 ， 特 点 在 于 篇 幅 短 、 直 和 白 的 解释 以 及 易于 学 习 。 


本 书 的 整体 结构 已 经 调整 为 尽 可 能 快速 地 解决 数据 分 析 问 题 ， 包 括 一 系列 从 基础 到 高 阶 的 可 
运行 的 数据 分 析 示 例 与 练习 。 


第 2-10 章 与 《思考 Python》 内 容 类 似 ， 主 要 区 别 如 下 : 面向 数值 的 示例 与 练习 被 面向 数据 的 
练习 取代 ; 主题 的 顺序 按照 循序 渐进 原则 ， 从 简单 数据 义理 到 复 条 的 数据 分 析 解 决 方案 ; 一 
些 主题 ， 例 如 try 与 except 调 整 到 前 面 ， 作 为 第 3 章 “条 件 ” 的 部 分 内 容 。 由 于 画 数 比较 抽象 ， 没 
有 过 早出 现 ， 当 需要 人 处理 程序 的 复杂 性 时 才 予 以 介绍 。 几 乎 所 有 用 户 定义 的 画 数 都 从 第 4 章 的 
例 代码 与 练习 中 移 除 了 。 本 书 不 会 出 现 “ 递 轨 ”| 这 个 术语 。 


第 1 章 和 第 11-16 章 的 内 容 都 是 全 新 的 ， 主 要 介绍 Python 的 现实 应 用 ， 包 括 一 些 用 于 数据 分 析 
的 Python 简单 示例 ， 例 如 ， 搜 索 与 解析 的 正则 表达 式 ， 计 算 机 上 任务 的 自动 化 执行 ， 通 过 网 
络 检索 数据 ， 采 集 网 页 数据 ，Web Services 的 使 用 ， 解 析 XML 与 JSON 数 据 ， 使 用 结构 化 查询 
语言 SQL 进行 数据 库 的 创建 与 使 用 等 。 


本 书 做 出 这 些 调整 的 最 终 目标 是 ， 从 计算 机 专业 视角 转向 信息 管理 专业 视角 ， 仅 仅 涵 盖 技 术 
入 门 课程 必需 的 主题 ， 即 使 选课 的 学 生 并 不 打算 成 为 专业 的 程序 员 也 会 感到 有 用 。 


对 这 本 书 感 兴趣 的 学 生 想 要 进一步 探索 的 话 ， 应 该 阅读 Alle B. Downey 的 《思考 Python》。 由 
于 两 本 书 的 内 容 存 在 许多 重合 ， 学 生 能 从 那 本 书 中 快速 掌握 更 多 技术 编程 技能 与 提升 算法 思 
考 能 力 。 另外 ， 两 本 书 的 写作 风格 相似 ， 读 完 这 本 书 之 后 应 该 能 很 容易 通读 《思考 
Python》。 


《思考 Python》 这 本 书 的 版 权 所 有 者 Allen 授 权 我 对 书 中 内 容 的 版 权 做 了 修改 ， 将 本 书 中 保留 
的 他 书 中 的 内 容许 可 从 GNU 自 由 文档 许可 变更 为 最 近 流 行 的 知识 共享 一 一 以 相同 方式 共享 
(CC-BY-SA) 协议 。 这 一 做 法 符合 开放 文档 许可 从 GFDJ 到 CC-BY-SA 的 转变 趋势 (如 ， 维 
基 百 科 的 授权 方式 ) 。CC-BY-SA 许 可 保留 了 图 书 最 显著 的 版 权 传统 ， 同 时 又 允许 新 作者 直接 
重用 书 中 他 们 觉得 合适 的 内 容 。 





觉得 这 本 书 是 教学 资料 开放 的 一 个 典范 ， 对 未 来 的 教育 而 言 非常 重要 。 感 谢 Alleb B. 
Downey 和 剑桥 大 学 出 版 社 做 出 的 前 瞻 决 定 ， 让 这 本 书 可 以 在 开放 版 权 下 出 版 。 和 希望 他 们 对 我 
努力 的 结果 感到 欣慰 ， 我 也 希望 读者 对 我 们 的 集体 努力 感到 高 兴 。 


我 还 要 感谢 Allen B. Downey 与 Lauren Cowles 在 解决 本 书 版 权 问 题 时 提供 的 帮助 、 耐 心 与 指 
导 。 

Charles Severance 

www.dr-chuck.com 

Ann Arbor, MI USA 

2013 年 9 月 9 号 


Charles Severance 博 士 是 密 西 根 大 学 信息 学 院 的 临床 副教授 。 


1 当然 ， 这 里 出 现 的 递归 除外 。 全 





第 1 章 为 什么 要 学 习 编 程 


编程 是 一 项 极 具 创造 性 和 有 益 的 活动 。 编 程 的 原因 很 多 ， 大 到 为 谋生 去 解决 一 个 困难 的 数据 
分 析 问题 ， 小 到 因为 帮助 别人 解决 一 个 问题 而 获得 快乐 。 本 书 假 定 每 个 人 都 需要 知道 怎样 纺 
程 ， 一 旦 学 会 编程 ， 你 就 会 想 要 用 这 个 新 技能 做 些 什 么 了 。 


我 们 的 日 常生 活 中 计算 机 无 处 不 在 ， 大 到 笔记 本 电脑 ， 小 到 手机 。 这 些 计 算 机 可 视 为 帮助 我 
们 打 理 很 多 事情 的 “私人 助理 "。 如 今 的 计算 机 硬件 从 根本 上 是 构建 在 不 断 回 答 我 们 提问 的 基础 
上 ， 即 “下 一 步 想 要 做 什么 ?” 


What W hat What 
Next2 \Next» \Next? 
| 二 
What What What er 
Next Next \Nexty FDA 
程序 员 在 硬件 之 上 添加 了 操作 系统 和 应 用 程序 ， 我 们 手中 拿 到 的 成 品 是 一 个 很 有 用 的 个 人 数 
字 助 理 (PDA，Personal Digital Assistant) ， 它 能 够 帮 有 我 们 处 理 很 多 不 同 的 事情 。 


计算 机 运行 速度 很 快 并 拥有 大 量 的 内 存 ， 如 果 我 们 知道 了 如 何 与 计算 机 沟通 ， 告 诉 计算 机 想 
要 它 接 下 来 做 什么 ， 这 对 更 好 地 使 用 计算 机 很 有 帮助 。 如 果 掌 握 了 计算 机 沟通 语言 ， 就 能 让 
计算 机 根据 我 们 的 意愿 完成 一 些 重复 性 工作 。 有 趣 的 是 ， 计 算 机 能 够 胜任 并 且 做 得 很 好 的 工 
作 就 是 那些 经 常 让 我 们 人 类 感到 无 聊 、 邻 人 头脑 麻木 的 事情 。 


例如 ， 阅 读本 章 的 前 三 段 ， 找 出 出 现 频 率 最 高 的 词 是 哪 一 个 ， 以 及 这 个 词 总 共 出 现 了 多 少 
次 。 尽 管 你 能 在 短 时 间 内 阅读 和 理解 这 些 文字 ， 但 要 对 它们 进行 统计 就 很 痛苦 了 。 这 类 问题 
不 是 人 的 大 脑 擅长 解决 的 。 计 算 机 恰好 相反 ， 她 很 难 像 人 一 桩 阅读 和 理解 一 段 文字 ， 但 是 进 
行文 字 统 计 并 告诉 你 出 现 频 率 最 高 的 词 及 其 出 现 次 数 ， 对 计算 机 而 言 却 是 非常 容易 的 : 


python words.py 
Enter file:words.txt 
to 16 


“个 人 信息 分 析 助 理 " 很 快 告诉 我 们 ， 单 词 “to“ 在 本 章 前 三 段 中 一 共 出 现 了 16 次 。 


事实 上 ， 计 算 机 擅长 做 人 类 不 擅长 做 的 事 ， 这 就 是 为 什么 你 需要 熟练 掌握 一 门 与 计算 机 对 话 
的 语言 。 一 旦 学 会 这 门 新 语言 ， 你 就 可 以 将 枯燥 的 工作 指派 给 你 的 计算 机 搭档 了 ， 留 出 更 多 
的 时 间 去 做 适合 你 自己 的 事 。 在 这 种 合作 关系 中 ， 你 的 贡献 是 才思 、 直 觉 力 和 创造 力 。 


1.1 创新 与 动机 


这 本 书 不 是 为 专业 程序 员 准 备 的 ， 专 业 编程 是 份 非常 有 前 途 的 工作 ， 可 算是 物质 与 精神 双 丰 
收 。 为 他 人 创造 有 用 的 、 简 洁 的 与 智能 的 程序 是 一 项 创新 性 很 强 的 活动 。 你 的 计算 机 或 PDA 
通常 安装 了 来 自 许多 不 同 程序 员 开发 的 各 种 软件 ， 每 一 款 软 件 都 想 要 吸引 你 的 注意 力 和 闪 
趣 。 它 们 尽 其 所 能 来 满足 你 的 需求 ， 在 使 用 过 程 中 让 你 获得 优质 的 用 户 体验 。 在 某 些 情况 
下 ， 当 你 选择 了 一 个 软件 ， 这 个 软件 的 开发 者 就 会 因为 你 的 选择 而 直接 获得 收益 。 


如 果 将 程序 看 作 是 程序 员 的 创新 性 产 出 ， 那 么 下 图 就 是 一 个 更 形象 的 PDA 模 型 : 
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本 书 的 写作 初衷 不 是 为 了 赚钱 或 者 取悦 最 终 用 户 ， 而 是 让 我 们 能 更 好 地 处 理 生活 中 的 数据 与 
信息 。 开 始 学 编程 ， 你 既是 程序 员 ， 也 是 你 所 写 程序 的 最 终 用 户 。 当 你 获得 了 程序 员 的 技 
能 ， 如 果 编 程 让 你 感到 有 创新 活力 的 话 ， 到 时 你 的 想法 也 许 会 发 生 改变 ， 转 向 为 他 人 开发 程 
序 也 说 不 定 。 


1.2 计算 机 硬件 架构 


学 习 这 种 向 计算 机 发 指令 来 开发 软件 的 语言 之 前 ， 我 们 需要 了 解 一 下 计算 机 的 构成 。 
如 果 拆 开 你 的 计算 机 或 者 手机 ， 仔 细 观 察 就 会 发 现 以 下 这 些 组 件 : 
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这 些 组 件 的 一 般 定 义 如 下 : 


。 中 央 处 理 器 (Central Processing Unit ，CPU) 是 专门 为 解决 “下 一 步 做 什么 "而 存在 的 组 
件 。 如 果 计 算 机 处 理 速 度 达 到 3.0 GHz， 这 就 意味 着 CPU 每 秒 会 提问 30 亿 次 “下 一 步 做 什 
么 ?”。 你 不 得 不 学 会 如 何 跟 CPU 如 此 快速 地 交谈 与 保持 同步 。 

。 主 存 储 器 (Main Memory) 用 来 存储 CPU 即刻 需要 的 信息 。 主 存储 器 的 速度 几乎 与 CPU 
不 相 上 下 。 但 是 ， 关 闭 计 算 机 之 后 主 存储 器 里 的 信息 也 就 消失 了 。 

。 辅助 存储 器 (Secondary Memory) 也 是 用 来 存储 信息 的 ， 但 是 它 比 主 存储 器 速度 慢 很 


多 。 辅 助 存 储 器 的 优点 是 ， 它 可 以 在 计算 机 不 带电 情况 下 存储 信息 。 常 见 辅助 存储 器 包 
括 磁盘 和 闪存 。 闪 存 通常 用 在 U 盘 和 便携 式 音乐 播放 器 上 。 

。 输入 输出 设备 (Input and Output Devices) 包括 屏幕 、 键 盘 、 鼠 标 、 麦 克 风 、 扬 声 器 以 
及 触摸 板 等 。 这 些 都 是 用 来 与 计算 机 进行 交互 的 设备 。 

。 如 今 大 多 数 计 算 机 之 间 还 建立 了 网 络 连接 ， 通 过 网 络 获取 信息 。 我 们 可 以 将 网 络 看 成 信 
息 存 储 与 检索 速度 很 慢 的 一 个 空间 ， 而 且 不 总 是 那么 稳定 。 从 某 种 意义 上 讲 ， 网 络 是 速 
度 很 慢 且 并 不 是 那么 可 靠 的 辅助 存储 器 。 

这 些 组 件 的 工作 原理 细节 最 好 还 是 交 给 计算 机 厂商 吧 。 这 里 只 是 为 了 掌握 一 些 术 语 ， 在 编程 
时 方便 提 及 这 些 组 件 。 


作为 一 名 程序 员 ， 你 的 工作 就 是 利用 并 协调 这 些 资源 来 解决 问题 和 分 析 数 据 。 作 为 程序 员 ， 
你 主要 与 CPU 打交道 ， 告 诉 它 下 一 步 做 什么 。 有 时 ， 你 要 告诉 CPU 调用 主 存储 器 、 辅 助 存 储 
器 、 网 络 或 输入 输出 设备 。 
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你 需要 成 为 回答 CPU"“ 下 一 步 做 什么 "的 人 。 但 把 你 压缩 到 5 毫米 高 ， 塞 入 计算 机 ， 让 你 每 秒 发 
出 3 亿 次 命 售 ， 想 必 这 样 会 很 不 舒服 。 所 以 ， 你 必须 提前 写 好 你 的 指令 。 我 们 把 这 些 存 储 下 来 
的 指令 称 为 程序 ， 编 写 指 邻 并 进行 调试 的 活动 称 之 为 编程 。 


1.3 理解 编程 


在 本 书 其 他 章节 中 ， 我 们 尝试 把 你 培养 成 长 为 一 名 理解 编程 艺术 并 具 各 一 定编 程 能 力 的 人 。 

最 后 ， 你 会 成 为 一 个 程序 员 ， 也 许 不 是 专业 的 。 但 至 少 你 掌握 了 如 何 看 待 数据 (信息 ) 分 析 

问题 ， 并 开发 出 解决 问题 的 程序 。 

从 某 种 意义 上 来 说 ， 程 序 员 的 养 成 需要 两 种 技能 : 

。 首先 ， 需 要 掌握 编程 语言 (Python) 本 身 熟悉 词汇 和 语法 。 能 够 准确 地 拼写 这 门 新 
语言 中 的 单词 ， 并 且 掌 握 如 何 使 用 这 门 新 语言 正确 地 “造句 ”。 

。 其 次 ， 学 会 讲 故事 。 在 写 故 事 的 过 程 中 ， 通 过 文字 和 句 式 的 组 合 ， 向 读者 传达 思想 。 编 
故事 的 艺术 与 能 力 通过 写作 与 反馈 得 以 提高 。 在 编程 中 ， 程 序 即 故事 ， 待 解决 的 问题 即 





传达 的 想法 。 


当 掌 握 一 种 编程 语言 (如 Python) 之 后 ， 你 会 发 现 学 习 其 他 编程 语言 ， 如 JavaScript 或 者 
C++， 就 会 容易 许多 。 虽 然 新 的 编程 语言 拥有 很 多 不 同 的 词汇 和 语法 ， 但 你 已 经 学 会 解决 问题 
的 技能 ， 所 有 编程 语言 本 质 上 都 是 相通 的 。 


Python 的 词汇 和 句 式 上 手 很 快 ， 但 要 能 写 出 一 些 连 贯 的 程序 来 解决 一 个 全 新 的 问题 ， 尚 需 时 
日 磨 练 。 讲 授 编程 就 像 讲授 写作 一 样 。 先 对 程序 进行 阅读 和 解释 ， 然 后 编写 简单 的 程序 ， 接 
着 逐步 编写 更 复杂 的 程序 。 当 达到 一 定 水 平 ， 你 就 形成 了 自己 的 编程 风格 ， 自 然而 然 地 去 应 
对 问题 ， 通 过 编写 程序 解决 它 。 一 旦 修炼 到 这 个 程度 ， 编 程 就 变 成 一 个 愉悦 且 富 有 创造 力 的 
过 程 了 。 


我 们 从 Python 程序 的 词汇 和 结构 讲 起 。 第 一 次 阅读 时 ， 一 定 要 耐心 学 习 那 些 简单 的 例子 。 


1.4 词汇 与 句子 


与 人 类 语言 不 同 的 是 ，Python 的 词汇 数量 实际 上 相当 少 。 我 们 称 这 些 “ 词 汇 ” 为 “保留 字 ”， 它 们 
是 Python 中 具有 特殊 意义 的 词汇 。 对 于 Python 来 说 ， 程 序 中 出 现 的 这 些 词汇 ， 它 们 有 且 仅 有 
一 个 含义 。 等 下 你 在 编程 时 ， 你 自己 定义 的 词汇 称 为 变量 。 变 量 命名 非常 自由 ， 但 有 一 点 ， 

你 不 能 使 用 Python 的 保留 字 作为 变量 名 。 


从 某 种 意义 上 讲 ， 我 们 训练 一 只 狗 时 会 使 用 一 些 特殊 的 词汇 ， 上 比如“ 坐 下 ”"”、“ 停 下 ”和 "“ 拿 来 ”。 
跟 狗 说 话 时 不 用 这 些 保 留 字 的 话 ， 它 们 就 会 傻 傻 地 看 着 你 ， 直 到 你 对 它 说 出 保留 字 。 举 例 来 
说 ， “我 希望 更 多 的 人 通过 散步 来 促进 健康 。”， 而 大 多 数 狗 听 到 的 可 能 是 , “ 吧 啦 吧 啦 散步 吧 
啦 吧 啦 。” 这 是 因为 在 狗 的 语言 中 “散步 "是 保留 字 。 很 多 人 可 能 觉得 人 类 和 猫 之 间 的 语言 没有 
保留 字 1。 


Python 的 保留 字 如 下 : 
and del from not while 
as elif global or with 
assert else oF pass yield 
break except import print 
class exec in raise 
continue finally Tis return 
def for lambda try 


就 这 么 多 词汇 。Python 上 比 狗 训 练 有 素 多 了 。 当 你 说 “try”"”，Python 会 毫 无 差错 地 执行 try。 


后 续 章节 会 介绍 这 些 保留 字 及 它们 的 适用 场合 。 现 在 ， 我 们 只 关注 怎么 与 Python 对 话 (就 像 
人 跟 狗 说 话 ) 。 教 Python 说 话 是 件 有 意思 的 事情 ， 把 想 要 说 的 话 用 单 引 号 括 起 来 就 可 以 了 。 


print 'Hello wor1dl!' 


这 就 是 我 们 写 出 的 第 一 个 语法 正确 的 Python 语句 。 以 保留 字 print 开 头 ， 后 面 跟 一 个 文本 字符 
串 ， 用 单 引 号 括 起 来 。 


1.5 与 Python 对 话 


我 们 已 经 掌握 了 Python 的 一 个 词 江 与 一 个 简单 语句 ， 接 下 来 需要 了 解 如 何 与 Python 对 话 ， 测 
试 我 们 的 新 语言 技能 。 


与 Python 对 话 之 前 ， 必 须 先 在 计算 机 上 安装 Python 软件 ， 学 会 如 何 启 动 Python。 本 章 包 含 许 
多 细节 ， 建 议 查 看 http://www.pythonlearn.com， 网 站 上 有 Python 在 Mac 和 Windows 系 统 上 配 
置 和 启动 的 详细 说 明和 视频 演示 。 当 打开 终端 或 者 命令 行 窗口 ， 输 入 python，Python 解 析 器 
会 以 交互 模式 和 启动， 如 下 所 示 : 


Python 2.6.1 (r261:67515, Jun 24 2010, 21:47:49) 

[GCC 4.2.1 (Apple Inc. build 5646)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>3 


>>> 提 示 符 表示 Python 解析 器 在 询问 , “你 希望 我 下 一 步 做 什么 ?”。Python 已 经 准备 好 与 你 对 
话 。 你 需要 掌握 的 是 怎样 说 Python 语言 ， 发 起 一 个 对 话 。 


举 个 例子 ， 你 对 Python 语言 最 简单 的 词汇 或 句子 一 无 所 知 ， 想 要 使 用 宇航 员 的 标准 用 语 ( 喊 
话 ) 。 宇 航 员 在 一 个 遥远 的 星球 登陆 ， 试 着 和 这 个 星球 的 居民 用 以 下 语句 对 话 


>>> I come in peace, please take me to your leader 
File "<stdin>", line 1 
I come in peace, please take me to your leader 
人 


SyntaxError: invalid syntax 
>>> 


事情 进展 好 像 并 不 顺利 。 除 非 你 反应 迅速 ， 否 则 这 个 星球 的 居民 可 能 会 拿 长 矛 刺 向 你 ， 向 你 
吐 口水 ， 然 后 把 你 放 在 火 上 烤 ， 当 成 晚饭 吃 掉 。 


幸运 的 是 ， 旅 行 时 你 带 了 这 本 书 ， 及 时 翻 到 了 这 一 页 ， 再 试 一 次 : 


>>> print 'Hello world!' 
Hello world! 


这 次 看 起 来 效果 不 错 ， 试 着 与 他 们 继续 对 话 : 


>>> print 'You must be the legendary god that comes from the sky' 
You must be the legendary god that comes from the Sky 
>>> print 'We have been waiting for you for a long time' 
We have been waiting for you for a long time 
>>> print 'Our legend says you will be very tasty with mustard' 
Our legend says you will be very tasty with mustard 
>>> print 'We will have a feast tonight unless you Say 
File "<stdin>", line 1 
print 'We will have a feast tonight unless you Say 
八 

SyntaxError: EOL while scanning String literal 


>>> 


此 时 ， 你 应 该 意识 到 ，Python 虽 然 非 常 复杂 与 强大 ， 但 在 语法 上 非常 挑 嘎 ， 并 不 那么 智能 。 
对 话 中 必须 使 用 正确 的 语法 。 


在 某 种 意义 上 ， 当 你 使 用 别人 写 的 程序 时 ，Python 就 在 你 和 其 他 程序 员 之 间 充 当中 间 人 。 
Python 是 程序 编写 者 将 对 话 进行 下 去 的 一 种 方式 。 在 阅读 完 短 短 几 章 之 后 ， 你 将 成 为 Python 
程序 员 中 的 一 员 ， 和 与 你 的 程序 使 用 者 进行 对 话 。 


结束 与 Python 解析 器 的 第 一 次 谈话 之 前 ， 你 可 能 要 知道 如 何 正确 地 与 这 个 星球 的 居民 说 “再 


汪 


>>> good-bye 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

NameError: name 'good' is not defined 


>>> If you don't mind, I need to leave 
File "<stdin>", line 1 
if you don't mind, I need to leave 
八 


SyntaxError: invalid syntax 


>>> quit() 


你 会 发 现 前 两 个 错误 提示 是 不 同 的 。 由 于 if 是 保留 字 ，Python 看 到 保留 字 会 认为 我 们 想 说 些 什 
但 句子 的 语法 是 错 的 。 


跟 Python 说 “再 见 "的 正确 方法 是 ， 在 交互 模式 的 提示 符 >>> 后 输入 quit()。 猜 出 这 个 命令 这 可 能 
会 花费 一 些 时 间 ， 所 以 手头 备 本 书 可 能 会 派 上 用 场 。 


1.6 术语 : 解释 器 与 编译 器 


Python 是 一 种 高 级 语言 ， 旨 在 较为 方便 地 让 人 类 进行 读 写 ， 让 计算 进行 读 取 和 与 义理 。 其 他 高 
级 语言 包括 : Java、C++、PHP、Ruby、Basic、Perl 以 及 JavaScript 等 。CPU 里 的 硬件 并 不 
能 理解 任何 一 种 高 级 语言 。 


CPU 能 理解 的 语言 称 之 为 机 器 语言 。 机 器 语言 非常 简单 ， 坦 白 讲 ， 编 写 起 来 非常 无 聊 。 它 全 
部 由 0 和 1 组 成 : 


91010001110100100101010000001111 
11100110000011101010010101101101 


虽然 机 器 语言 表面 看 起 来 很 简单 ， 只 有 0 和 1， 但 它 的 语法 比 Python 复 条 得 多 。 所 以 ， 很 少 有 
程序 员 用 机 器 语言 编程 。 相 反 ， 借 助 各 种 翻译 器 ， 程 序 员 可 以 编写 像 Python 或 JavaScript 这 样 
的 高 级 语言 ， 这 些 翻 译 器 会 将 程序 转换 成 机 器 语言 ， 再 交 由 CPU 执 行 。 


因为 机 器 语言 依附 于 计算 机 硬件 ， 所 以 不 能 在 不 同类 型 硬件 之 间 移 植 。 使 用 高 级 语言 编写 的 
程序 可 以 在 不 同 的 计算 机 之 间 移 植 ， 通 过 在 另 一 台 计 算 机 上 使 用 不 同 的 编译 器 ， 或 者 重新 编 
译 代码 ， 生 成 一 个 适合 这 台 计 算 机 的 机 器 语言 版 本 。 


编程 语言 的 翻译 器 大 体 可 分 为 两 类 : (1) 解 释 器 与 (2) 编译 器 。 


解释 器 读 取 程序 员 所 宇 程 序 的 源 代 码 ， 解 析 源 代码 并 实时 解释 指令 。Python 是 一 种 解释 器 。 
当 交 互 式 执行 Python 时 ， 输 入 一 行 Python 语 句 ，Python 就 会 立即 处 理 它 ， 并 做 好 准 各 让 我 们 
输入 下 一 条 语句 。 


Python 语句 中 有 一 些 地 方 会 告诉 Python， 你 想 要 Python 记 住 等 下 会 用 到 的 一 些 数据 。 这 时 就 
需要 为 数据 挑选 一 个 名 称 来 记 住 它 ， 这 样 之 后 就 可 以 通过 这 个 名 称 来 获取 对 应 的 数据 了 。 我 
们 使 用 变量 (variable) 来 代表 存储 的 数据 。 


>>>> C=26 


>>> print x 


>>>y=x*7 


>>> print y 


在 这 个 例子 中 ， 我 们 让 Python 记 住 数值 6， 并 将 6 赋值 给 变量 x， 以 便 后 续 使 用 。 为 了 确认 
Python 已 经 记 住 这 个 数值 ， 使 用 print 命 令 打 印 变 量 x 的 值 。 接 下 来 ， 我 们 让 Python 获取 变量 x 
的 值 并 乘 以 7， 然 后 将 结果 赋 给 新 变量 y。 最 后 ， 打 印 出 当 变 量 y 的 当前 值 。 


一 次 输入 一 行 命令 ，Python 将 其 视 为 一 个 语句 序列 ， 后 面 的 语句 可 以 获取 前 面 语句 的 数据 。 
四 名 组 成 的 段落 以 一 种 有 逮 辑 的 和 有 意义 的 顺序 编写 ， 这 就 是 我 们 写 出 的 第 一 个 简单 的 多 行 
程序 。 


如 上 所 示 ， 解 释 器 的 本 质 是 进行 交互 式 对 话 。 编 译 器 需要 将 整个 程序 放 在 一 个 文件 中 ， 将 高 
层次 的 源 代码 翻译 成 低层 次 的 机 器 语言 ， 然 后 编译 器 将 生成 的 机 器 语言 放 到 一 个 文件 中 以 便 
后 续 执行 。 


如 果 你 使 用 Windows 系 统 ， 这 些 可 执行 的 机 器 语言 程序 通常 带 有 .exe” 或 “.dP 后 级 ， 分 别 代 表 
这 是 “可 执行 的 "和 “动态 可 加 裁 库 ”。 在 Linux 和 Mac 中 没有 这 样 的 后 级 来 明确 表示 文件 是 否 是 可 
执行 的 。 


如 果 在 文本 编辑 器 中 打开 一 个 可 执行 文件 ， 满 眼 望 去 完全 看 不 懂 : 


A?ELFAAAAAAAQ@AQA@^AQAQOAO^OAQAOABAQACAOAAAOAOAGQNxagNXx82 
ADAH4A@A@A@Nx90^]^@A@A@A^G@^@A^6@4^@ ^@^GA@(^@$A^@1IA^@AFA^@ 
AQ@^AQ@4^Q@^AQ@^Q@4\Xx80^ADAH4\X80ADAHNXXe0^Q@A^Q@A^Q@NXxe0^@^@^QGA^E 
AQ@AQAQOADAQ@AQOAOACAQGAOAQOATAAA@AQATAXx81^DAHATXX81ADAHAS 
AQ@A@^A@A^SA@^Q@A^@AD^Q@A^@A@AAAQ@AQ@A@AANAADAHQVhTAXXx83A^ADAHNXe8 


机 器 语言 的 读 写 并 不 容易 ， 好 在 借助 解释 器 和 编译 器 ， 能 够 使 用 Python 或 C 这 样 的 高 级 语言 编 
写 程 序 。 

通过 对 解释 器 与 编译 器 的 讨论 ， 你 应 该 对 Python 解释 器 本 身 有 了 一 些 了 解 。 那 它 又 是 用 什么 
语言 写 的 ?是 用 汇编 语言 写 的 吗 ? 当 我 们 输入 “python”， 究 竟 发 生 了 什么 ? 

Python 的 解释 器 是 用 C 语 言 编写 的 。 你 可 以 访问 http://www.python.org 了 网站， 查看 Python 解释 
器 的 源 代 码 ， 如 有 你 有 意愿 改造 这 些 源 代 码 也 是 可 以 的 。Python 本 身 就 是 一 个 程序 ， 它 被 编 
译 成 机 器 代码 。 当 你 (或 计 硬 件 供应 商 ) 在 计算 机 上 安装 了 Python， 实 际 是 上 将 一 份 编译 好 
的 Python 程序 的 机 器 代码 拷贝 到 你 的 计算 机 系统 。 在 Windows 中 ，Python 可 执行 的 机 器 代码 
很 可 能 位 于 以 下 文件 夹 中 : 


C:\Python27\python.exe 


要 成 为 一 名 Python 程 序 员 ， 你 知道 这 些 还 远 远 不 够 。 但 在 一 开始 ， 花 一 些 时 间 解 释 这 些 细节 
问题 ， 还 是 值得 的 。 


1.7 编写 一 个 程序 
体验 Python 功能 的 最 好 方式 是 在 Python 解析 器 中 输入 命令 ， 但 不 建议 采用 这 种 方式 来 解决 复 
条 的 问题 。 


编程 时 ， 我 们 在 文本 编辑 器 里 把 Python 指 邻 写 到 一 个 文件 里 ， 这 个 文件 称 为 脚本 。 一 般 而 
言 ，Python 脚 本 以 .py 命名 结尾 。 


为 执行 脚本 ， 你 必须 告诉 Python 解释 器 脚本 文件 的 名 称 。 在 Unix 或 Windows 命 令 窗 口中 ， 你 
可 以 输入 以 下 代码 来 执行 hello.py 脚 本 文件 : 


csev$ cat hello.py 
print 'Hello world!' 
csev$ python hello.py 
Hello world! 

CSev$ 


“csev$" 是 操作 系统 提示 符 , “cat hello.py" 是 查看 “hello.py" 文 件 的 内 容 ， 其 中 包含 了 字符 串 打 
印 的 一 行 Python 程序 。 


我 们 调用 Python 解释 器 ， 告 诉 它 从 “hello.py" 文 件 中 读 取 源 代码 ， 而 不 是 用 命令 行 交 互 式 执行 
Python 代码 。 


你 会 发 现 ， 没 有 必要 在 Python 程序 文件 未 尾 加 上 quit()。Python 读 取 源 代码 文件 时 ， 到 达 文 件 
末尾 它 会 自己 停止 。 


1.8 什么 是 程序 ? 


程序 的 基本 定义 是 ， 完 成 特定 任务 的 一 组 Python 语句 序列 。 最 简单 的 hello.py 脚 本 也 是 一 个 程 
序 ， 不 过 只 是 一 行 代码 的 程序 里 了 ， 没 多 大 作用 ， 但 是 从 严格 的 定义 上 来 说 ， 它 是 一 个 
Python 程序 。 


考虑 一 个 可 以 被 程序 解决 的 问题 ， 然 后 用 程序 来 解决 它 ， 这 可 能 是 理解 程序 的 最 简单 方式 。 


假设 ， 你 想 对 Facebook 上 的 发 帖 进行 社会 计算 方面 的 研究 ， 可 能 感 兴趣 的 是 发 帖 中 最 常用 的 
词汇 是 什么 。 你 可 以 打印 出 这 些 发 帖 ， 然 后 通读 文本 ， 从 中 寻找 最 常见 的 词 ， 但 这 需要 很 长 
时 间 而 且 很 容易 出 错 。 通 过 编写 Python 程 序 来 快速 且 准 确 地 处 理 这 个 任务 ， 这 样 会 比较 明 
智 ， 周 末 就 可 以 做 些 其 他 有 趣 的 事 了 。 


举例 来 说 ， 阅 读 以 下 内 容 ， 这 是 关于 一 个 小 寻 和 一 辆 车 的 文本 ， 找 出 出 现 次 数 最 多 的 单词 ， 
并 统计 它 出 现 的 次 数 。 


the clown ran after the car and the car ran into the tent 
and the tent fell down on the clown and the car 


想象 一 下 ， 要 阅读 数 百 万 行文 本 来 完成 这 个 统计 任务 会 是 怎样 的 情形 。 坦 率 地 说 ， 学 习 
Python， 编 写 一 个 Python 程 序 来 统计 的 话 ， 要 比 人 工 打 描 单词 快 得 多 。 

一 个 好 消息 ， 我 用 一 个 简单 程序 解决 了 在 文本 文件 中 找到 最 常见 单词 的 这 个 问题 。 我 已 经 编 
写 好 并 测试 了 这 个 程序 。 现 在 ， 我 把 它 交 给 你 使 用 ， 这 样 就 可 以 节省 你 的 一 些 时 间 。 


name = raw_input('Enter file:') 
handle = open(name, 'r') 

text = handle.read() 

words = text.split() 

counts = dict() 


for word in words: 
counts[word] = counts.get(word,0) + 1 


bigcount = None 
bigword = None 
for word,count in counts.items(): 
if bigcount is None or count > bigcount: 
bigword = word 
bigcount = count 


print bigword, bigcount 


你 甚至 不 需要 知道 Python 就 可 以 使 用 这 个 程序 。 你 需要 通过 本 书 第 10 章 来 完全 理解 所 用 到 的 
Python 编程 技术 。 你 现在 是 最 终 用 户 ， 只 需 使 用 这 个 程序 ， 你 就 会 惊叹 于 它 的 聪明 ， 感 叹 如 
何 让 你 摆脱 繁重 的 手工 扫描 。 你 只 需 输入 代码 ， 保 存 成 words.py 文 件 并 执行 它 ， 或 者 也 可 以 
从 http://www.pythonlearn.com/code/ 下 载 源码 。 


这 个 示例 充分 体现 了 Python 以 及 这 门 语 言 在 你 (最终 用 户 ) 与 我 (程序 员 ) 之 间 扮 演 的 中 间 
人 角色 。 在 安装 了 Python 的 用 户 计算 机 上 ，Python 作 为 一 种 通用 语言 ， 让 我 们 可 以 交换 有 用 
的 指令 序列 〈 即 程序 ) 。 因 此 ， 我 们 并 不 是 跟 Python 交流 ， 而 是 通过 Python 与 其 他 人 交流 。 


1.9 程序 的 架构 
后 续 章节 会 详细 介绍 深 Python 的 词 江 、 句 子 结构 、 段 落 结 构 与 篇 章 结构 。 我 们 将 学 习 Python 
的 强大 功能 ， 以 及 如 何 将 这 些 功能 组 合 起 来 创建 有 用 的 程序 。 


程序 的 构造 包含 一 些 低 层次 的 概念 模式 。 这 些 构造 模式 不 仅仅 针对 Python 程序 ， 而 是 每 一 种 
编程 语言 从 机 器 语言 到 高 级 语言 的 通用 组 成 部 分 。 


输入 : 从 “外 部 世界 "获取 数据 ， 可 以 从 文件 中 读 取 数 据 ， 或 者 从 某 种 传感器 ， 比 如 麦克 风 或 
GPS 获取 数据 。 在 我 们 最 初 的 程序 中 ， 输 入 是 用 户 通过 键盘 输入 数据 。 


输出 : 将 程序 的 结果 显示 在 屏幕 上 ， 或 保存 在 一 个 文件 ， 或 写 人 一 个 设备 ， 如 扬声器 可 以 播 
放 音 乐 或 朗读 文字 。 


顺序 执行 : 按照 脚本 中 的 语句 顺序 ， 一 句 接 一 句 执 行 。 
条 件 执 行 : 根据 特定 条 件 执行 或 者 跳 过 特定 语句 序列 。 
重复 执行 : 重复 执行 一 些 语句 ， 通 常 也 会 存在 一 些 变化 。 


重用 : 编写 好 一 组 指令 ， 为 它们 命名 ， 之 后 在 程序 中 根据 需要 可 以 再 次 使 用 这 些 指令 


这 些 听 起 来 好 像 很 容易 ， 事 实 上 并 不 是 那么 简单 。 这 就 好 比 ， 走 路 很 简单 吧 , “把 一 只 脚 放 在 
一 只 脚 前 面 "。 编 程 的 “艺术 ”就 是 不 断 创 造 和 组 合 这 些 基 本 元 素 ， 创 造 对 用 户 有 用 的 东西 。 


除了 “重用 "模式 之 外 ， 上 面 的 词 频 统计 程序 几乎 用 到 了 上 面 提 及 的 所 有 模式 。 


1.10 导致 出 错 的 原因 


在 前 面 与 Python 的 对 话 中 已 经 看 到 ， 我 们 编写 Python 代码 必须 非常 精确 ， 很 小 的 偏差 和 错误 
都 会 导致 Python 放 奔 执行 程序 。 


初学 者 通常 认为 ，Python 不 能 容忍 犯错 ， 给 人 留 下 低劣 、 可 恨 与 残忍 的 印象 。 虽然 Python 看 
上 去 与 其 他 人 一 样 ， 但 它 能 理解 初学 者 ， 只 是 把 这 种 “抱怨 ?转化 为 督促 ， 让 我 们 更 好 地 编写 程 
序 。 不 要 再 说 Python 老 是 折磨 我 们 了 。 


>>> primt 'Hello wor1d! 
File "<stdin>", line 1 
primt 'Hello world!' 
人 
SyntaxError: invalid syntax 
>>> primt ‘Hello world' 
File "<stdin>", line 1 
primt 'Hello world' 
人 
SyntaxError: invalid syntax 
>>> I hate you Pythonl 
File "<stdin>", line 1 
I hate you Python! 
人 
SyntaxError: invalid syntax 
>>> if you come out of there, I would teach you a lesson 
File "<stdin>", line 1 
if you come out of there, I would teach you a lesson 
人 
SyntaxError: invalid syntax 
>>> 


与 Python 和 争论 没什么 好 处 。 它 只 是 一 个 工具 ， 没 有 情感 ， 它 很 高 关 随 时 准 各 为 你 服务 。 它 的 
短 误 信息 看 起 来 很 苛刻 ， 但 这 些 信 息 帮 助 提 供 线 素 。Python 看 到 了 你 输入 的 内 容 ， 但 不 明白 


你 输入 的 是 什么 。 


Python 更 像 一 只 狗 ， 无 条 件 爱 你 ， 只 能 理解 很 少 的 关键 词 ， 用 它 那 甜美 的 表情 (>>>) 看 着 你 ， 
等 待 你 输入 一 些 它 能 理解 的 东西 。 当 Python 说 道 :“SyntaxError: invalid syntax”， 它 只 是 摇 着 
尾巴 说 :“ 你 似乎 说 了 什么 ， 但 我 不 太 明 白 ， 请 你 继续 跟 我 说 话 (>>>)。 


当 程 序 交 得 越 来 越 复 厅 ， 你 会 遇 到 以 下 三 种 类 型 的 错误 : 


语法 错误 : 


这 是 你 遇 到 的 第 一 种 错误 ， 很 容易 解决 。 语 法 错误 意味 着 ， 你 违反 了 Python 的 "语法 "规则 。 
Python 会 尽 可 能 指出 一 行 语句 中 它 所 困惑 、 不 能 理解 的 地 方 和 字符 。 语 法 错误 唯一 杯 手 的 
是 ， 有 时 候 程序 中 需要 修改 的 错误 可 能 位 于 Python 所 指出 困惑 的 位 置 前 方 。 所 以 ，Python 指 
出 的 语法 错误 位 置 只 是 你 排查 问题 的 起 点 。 


逻辑 错误 : 逻辑 错误 是 程序 没有 语法 错误 前 提 下 ， 语 句 顺 序 或 语句 关系 存在 错误 。 逮 辑 错误 
的 一 个 形象 举例 是 , “打开 水 瓶 喝 口水 ， 把 它 放 到 书包 里 ， 走 到 图 书馆 ， 然 后 再 把 水 瓶 盖 上 。” 


语义 错误 : 语义 错误 是 程序 的 语法 完美 且 逮 辑 正 确 ， 但 无 法 达到 预期 。 也 就 是 说 ， 程 序 完全 
正确 ， 但 它 不 能 做 到 你 想 要 它 做 的 事 。 一 个 简单 的 例子 ， 如 果 你 给 人 指 路 怎么 去 一 家 餐馆 ， 
如 此 说 :“… 当 你 走 到 有 加 油 站 的 十 字 路 口 时 ， 向 左 转 ， 继 续 走 一 英里 ， 你 的 左手 边 有 一 座 红 
色 建 筑 ， 餐 人 馆 就 在 那儿 。”" 过 了 很 长 时 间 ， 你 的 朋友 打 来 电话 ， 他 们 正在 一 个 农场 ， 围 着 一 个 
谷 仓 转圈 ， 并 没有 看 到 餐馆 的 标志 。” 然 后 ， 你 问 :“ 你 们 在 加 油 站 左 转 还 是 右 转 了 ? ”他们 
说 :“ 完 全 是 按 你 指示 的 方向 走 ， 我 还 写 到 纸 上 ， 在 加 油 站 左 转 ， 继 续 走 一 英里 ”。 然 后 ， 你 
说 : “非常 抱 蒜 ， 虽 然 我 的 方向 指示 在 语法 上 没 错 ， 但 其 中 悲 催 地 包含 了 一 个 很 小 的 、 没 有 被 
发 现 的 语义 错误 。” 


对 于 这 三 种 错误 ，Python 会 尽 最 大 努力 按照 你 的 要 求 准确 地 去 执行 。 


1.11 学 习 之 旅 


当 循 序 渐进 阅读 本 书 时 ， 如 果 初 次 遇 到 某 些 概念 不 能 很 好 理解 ， 不 要 担心 。 小 时 候 学 说 话 
时 ， 头 几 年 只 要 能 发 出 一 些 可 爱 的 喃 喃 之 音 ， 这 不 是 什么 问题 。 花 6 个 月 的 时 间 ， 从 能 说 简单 
的 词汇 发 展 到 能 表达 简单 的 句子 ， 再 用 5 到 6 年 的 时 间 ， 从 句子 上 升 到 段落 ， 这 样 的 发 展 过 程 
是 正常 的 。 再 过 几 年 就 能 依据 自身 兴趣 ， 独 立 写 出 一 篇 完整 的 作文 了 。 


我 们 希望 你 能 以 更 快 地 速度 学 习 Python， 所 以 有 些 内 容 在 接 下 来 的 几 章 中 会 多 次 涉及 到 。 学 
习 一 门 新 语言 需要 花 时 间 去 吸收 和 理解 ， 才 能 做 到 运用 自如 。 全 景 是 由 一 块 块 小 的 片段 拼接 
起 来 的 。 我 们 会 一 再 提 及 一 些 主题 ， 尝 试 让 你 看 清 全 景 ， 这 可 能 会 导致 一 些 混 乱 。 由 于 书 的 
体例 是 线性 的 ， 如 果 你 参加 一 门 课 ， 推 进 方式 是 线性 的 ， 但 不 要 受 此 约束 。 前 后 来 回 翻阅， 
进行 一 些 略 读 。 在 没有 充分 理解 细节 之 前 ， 跳 过 有 难度 的 内 容 ， 这 有 助 于 更 好 的 理解 编程 之 
道 。 通 过 回顾 之 前 的 内 容 ， 或 者 重 做 之 前 做 过 的 练习 ， 你 可 能 会 感 收获 颇 多 ， 其 中 这 些 内 容 
可 能 在 你 一 开始 接触 时 觉得 有 些 费 解 的 。 


学 习 第 一 门 编程 语言 时 ， 通 常会 有 一 些 值 得 欢呼 省 路 的 时 刻 。 这 就 像 用 斧 瘟 精心 有 雕琢， 一 块 
岩石 最 终 在 你 手中 变 成 一 尊 美 丽 的 雕塑 。 


如 果 有 些 事 看 起 来 特别 困难 ， 通 宵 熬 夜 耗 着 是 没有 意义 的 。 休 息 一 下 ， 打 个 且 ， 吃 点 需 食 ， 
向 某 人 (可 能 是 你 的 狗 ) 倾诉 下 你 当下 遇 到 的 问题 ， 然 后 ， 以 全 新 的 眼光 回 过 头 来 再 看 这 个 
问题 。 我 保证 ， 一 旦 你 从 本 书 中 学 会 了 编程 知识 ， 再 回头 看 ， 你 会 发 现 编程 是 非常 简单 和 优 
雅 的 行为 ， 只 是 需要 花 一 些 时 间 去 吸收 罢了 。 


1.12 术语 
臭虫 : 程序 中 的 错误 。 


中 央 处 理 单元 : 所 有 计算 机 的 心脏 。 我 们 编写 的 软件 都 由 它 来 执行 ， 也 称 为 “CPU” 或 者 "处理 


编译 : 把 高 级 语言 编写 的 程序 翻译 成 低级 语言 ， 为 后 续 执 行 做 好 准备 。 

交互 模式 : 在 提示 符 后 输入 命令 和 表达 式 ， 这 是 Python 解释 器 的 一 种 使 用 方法 。 
解释 : 采用 一 次 翻译 一 行 的 方式 来 执行 高 级 语言 编写 的 程序 。 

低级 语言 : 一 种 旨 在 便于 计算 机 执行 的 编程 语言 ， 也 称 为 “机 器 码 " 或 “汇编 语言 ”。 
机 器 代码 : 最 接近 硬件 的 编程 语言 ， 可 直接 由 中 央 人 处 理 单元 (CPU) 执行 。 
主 存储 器 : 存储 程序 和 数据 。 关 闭 电源 后 主 存储 器 的 信息 会 去 失 。 

解析 : 检查 程序 和 分 析 语 法 结构 。 

可 移植 性 : 程序 的 一 个 属性 ， 即 程序 可 在 不 同类 型 的 计算 机 上 运行 。 

print 语 句 : 能 让 Python 解释 器 在 屏幕 上 显示 数据 的 指令 。 

问题 解决 : 提出 一 个 问题 ， 找 到 解决 方法 并 形成 解决 方案 的 过 程 。 

程序 : 实现 特定 计算 的 一 组 指令 集 。 

提示 : 程序 显示 一 个 消息 ， 等 待 用 户 的 输入 。 


辅助 存储 器 : 存储 程序 和 数据 ， 电 源 关 闭 后 数据 不 会 丢失 。 辅 助 存储 器 的 速度 通常 比 主 存 储 
器 慢 。 辅 助 存储 器 包括 磁盘 驱动 器 、U 盘 中 的 闪存 等 。 


语义 : 程序 本 身 的 含义 。 
语义 错误 : 程序 的 一 种 错误 。 程 序 并 未 按照 程序 员 意 愿 做 事 。 
源 代 码 : 程序 的 高 级 语言 代码 。 


1.13 练习 


习题 1.1 计算 机 的 辅助 存储 器 的 功能 是 什么 ? 
a) 执行 程序 的 所 有 计算 和 逻辑 

b) 在 互联 网 上 检索 网 页 

c) 长 期 存储 信息 ， 基 至 重启 之 后 信息 不 会 去 失 


d) 接收 用 户 的 输入 

习题 1.2 什么 是 程序 ? 

习题 1.3 编译 器 和 解释 器 有 什么 区 别 ? 
习题 1.4 下 面 哪个 选项 包含 了 “机 器 代码 "? 
a) 解释 器 

b) 键盘 

c) Python 源 文件 

d) word 文 档 

习题 1.5 找 出 下 面 代 码 的 错误 : 


>>> primt 'Hello wor1dl! 
File "<stdin>", line 1 
primt 'Hello world!' 

?a 


SyntaxError: invalid syntax 
>>> 


习题 1.6 执行 以 下 Python 语句 ， 变 量 “X" 存 于 何 处 ? 


x = 123 


a) 中 央 处 理 器 

b) 主 存 储 器 

c) 辅助 存储 器 

d) 输入 设备 

e) 输出 设备 

习题 1.7 以 下 程序 会 输出 什么 ? 


x = 43 
X= Xl 
print x 


a) 43 


b) 44 


c) x 十 1 
d) 出 错 ， 因 为 x = x+ 1 在 数学 上 讲 不 通 


习题 1.8 以 人 作 类 比 ， 解 释 以 下 事物 : (1) 中 央 处 理 单元 ，(2) 主 存 储 器 ，(3) 辅助 存储 
器 ， (4) 输入 设备 和 〈5) 输出 设备 。 例 如 , “计算 机 的 中 央 处 理 单元 相当 人 体 哪个 部 位 ”? 


习题 1.9 如 何 解 决 “语法 错误 ”? 


1 http://xkcd.com/231/ 全 


第 2 章 交 量 、 表 达 式 与 语句 


2.1 值守 类 型 


值 是 程序 的 基本 组 成 要 素 ， 如 一 个 字母 或 一 个 数字 。 目 前 为 止 ， 我们 接触 到 的 值 有 1、2 
和 “Hello,World!”。 


这 些 值 属于 不 同 的 类 型 : 2 是 整数 ，'Hello,World! 是 字符 串 (包含 一 串 字母 ) 。 你 (或 者 解释 
器 ) 可 以 根据 有 无 引号 来 判别 是 否 是 字符 串 。 


print 语 名 也 可 以 打印 整数 。 输 入 python 命 令 启 动 解释 器 。 


python 
>>> print 4 
4 


如 果 不 确定 一 个 值 属于 哪 种 类 型 ， 解 释 器 会 告诉 你 。 


>>> type('Hello, World!') 
<type 'str'> 
>>> type(17) 
<type 'int'> 


显而易见 ， 字 符 串 属 于 str 类 型 ， 整 数 属于 int 类 型 。 带 小 数 点 的 数字 使 用 浮 点 (floating-point) 
格式 表示 ， 称 为 oat 类 型 。 


>>> type(3.2) 
<type 'float'> 


那么 ， 像 '17' 和 '3.2' 这 种 属于 哪 种 类 型 呢 ? 看 起 来 像 数字 ， 但 它们 和 字符 串 一 样 被 放 在 单 引号 
里 面 。 


>>> type('17 ) 
<type 'str'> 
>>> type('3.2') 
<type 'str'> 


它们 是 字符 串 。 


输入 较 大 的 数字 时 ， 可 能 会 在 每 三 个 数字 之 间 加 一 个 逗号 ， 例 如 ，1,000,000。 在 Python 中 这 
不 是 一 个 整数 ， 但 这 样 表示 是 合法 的 。 


>>> print 1,000,000 
100 


这 不 是 我 们 想 要 的 ! Python 解 释 器 会 把 1,000,000 当 做 一 个 至 号 分 隔 的 数字 序列 ， 它 会 把 三 音 
分 依次 打印 出 来 ， 中 间 用 空格 分 开 。 

这 是 我 们 遇 到 的 第 一 个 语义 错误 例子 : 代码 运行 不 会 输出 任何 错误 信息 ， 但 是 它 并 没有 做 " 正 
确 的 事 “。 





2.2 变星 


编程 语言 最 强大 的 功能 之 一 体现 在 对 变量 的 操作 能 力 。 变量 是 一 个 值 的 引用 名 称 。 
赋值 语句 用 来 创建 新 变量 并 对 其 赋值 : 


>>> message = ' And now for something completely different 
>>> n = 17 
>>> pi = 3.1415926535897931 


这 个 例子 列举 了 三 种 不 同类 型 的 赋值 语句 。 第 一 条 语句 将 字符 串 赋 值 给 变量 message ; 第 二 
条 语句 将 整数 17 赋 值 给 变量 n， 第 三 条 语句 将 T 的 近似 值 赋值 给 变量 pi。 


使 用 打印 语句 输出 这 些 变量 的 值 。 


>>> print n 
下 

>>> print pi 
3.14159265359 


变量 的 类 型 就 是 它 所 指向 的 值 的 类 型 。 


>>> type(message) 
<type 'str'> 

>>> type(n) 

<type 'int'> 

>>> type(pi) 
<type 'float'> 





2.3 变量 名 与 关键 字 


程序 员 通 常会 选择 有 意义 的 变量 名 ， 通 过 变量 名 较为 直观 地 了 解 变量 的 用 途 。 


变量 名 不 限 长 度 ， 可 以 同时 包含 字母 和 数字 ， 但 是 必须 以 字母 开头 。 使 用 大 写字 和 母 也 是 合法 
的 ， 但 使 用 小 写字 母 会 更 好 (随后 会 解释 原因 ) 。 


下 划 线 可 以 出 现在 变量 名 中 。 它 经 常用 在 含有 多 个 词 的 变量 名 中 ， 例 如 ，my_name 和 
airspeed_of_unladen_swallow。 变 量 名 可 以 采用 下 划 线 开头 ， 但 一 般 要 避免 这 样 命名 ， 除 非 
是 编写 供 他 人 使 用 的 Python 库 代码 。 


如 果 使 用 不 合法 的 变量 名 ， 你 就 会 得 到 一 个 语法 错误 : 


>>> 76trombones = 'big parade' 
SyntaxError: invalid syntax 

>>> more@ = 1000000 

SyntaxError: invalid syntax 

>>> Class = 'Advanced Theoretical Zymurgy' 
SyntaxError: invalid syntax 


76trombones 不 是 合法 的 变量 名 ， 它 不 是 以 字母 开头 的 。more@ 也 是 不 合法 的 ， 它 包含 了 一 
个 不 合法 的 字符 @。 变 量 名 class 错 在 哪 呢 ? 


原因 在 于 ，class 是 Python 的 保留 关键 字 。Python 解 释 器 使 用 保留 关键 字 来 识别 程序 的 结构 ， 
因此 ， 保 留 关 键 字 不 能 用 于 变量 名 。 


Python 的 31 个 保留 关键 字 如 下 所 示 1 : 


and del from not while 
as elif global or with 

assert else if pass yield 
break except import print 

class exec in raise 

continue finally is return 

def for lambda try 


你 可 以 在 手边 存留 一 份 。 如 果 解 释 器 指出 了 一 个 变量 名 不 合法 ， 而 你 又 不 知道 为 什么 ， 那 么 
检查 一 下 变量 名 是 否 在 这 个 列表 里 面 。 


2.4 语句 


语句 是 Python 解释 器 能 够 执行 的 代码 单元 。 我 们 已 经 见 到 过 两 个 语句 : print 和 assignment。 
在 交互 模式 中 输入 一 条 语句 ， 解 释 器 就 会 执行 它 并 打印 出 结果 (如 果 有 结果 的 话 ) 。 
程序 举例 如 下 : 


print 1 
X= 2 
print x 


得 到 以 下 输出 结果 : 


其 中 ， 赋 值 语句 没有 输出 结果 。 


2.5 运算 符 和 运算 对 象 


运算 符 是 表示 运算 的 一 类 特殊 符号 ， 例 如 ， 加 法 与 乘法 。 和 运算 符 操作 的 值 称 为 运算 对 象 。 
+、-、*、/ 和 ?五 个 运算 符 分 别 代表 加 、 减 、 乘 、 除 和 次 方 的 运算 ， 请 看 如 下 示例 : 


20+32 hour-1 hour*60+minute minute/60 S72 (5+9)*(15-7) 


除 运算 的 结果 可 能 不 是 你 所 期 待 的 : 


>>> minute = 59 
>>> minute/60 
0 


minute 的 值 是 59， 在 传统 的 算术 中 ，59 除 以 60 是 0.98222， 而 不 是 0。 出 现 这 种 差异 的 原因 在 
于 ，Python 执 行 的 是 地 板 除法 (floor division) 2。 


当 两 个 运算 对 象 都 是 整数 时 ， 那 么 结果 也 是 整数 。 地 板 除 法 默认 去 掉 小 数 部 分 ， 因 此 上 面 的 
运算 结果 是 0。 


如 果 两 个 运算 对 象 都 是 浮 点 数 ， 那 么 Python 会 执行 浮 点 除法 ， 结 果 就 是 浮 点 数 : 


>>> minute/60.0 
0.98333333333333328 


2.6 表达 式 


表达 式 是 值 、 变 量 和 运算 符 的 组 合 。 值 本 身 可 以 是 一 个 表达 式 ， 变 量 亦 如 此 。 下 面 都 是 合 
的 表达 式 (假设 变量 x 已 被 赋值 ) 


> yh 


区 过 之 和 本 


然而 ， 在 一 个 程序 中 ， 表 达 式 本 身 并 不 能 做 任何 事情 ! 这 是 初学 者 容易 混淆 的 一 点 。 
习题 2.1 在 Python 解 释 器 中 输入 下 面 的 语句 并 查看 结果 : 


2.7 运算 顺序 


当 一 个 表达 式 中 出 现 多 个 运算 符 时 ， 运 算 顺 序 按照 一 定 规则 进行 。 对 于 数学 运算 符 来 说 ， 
Python 遵照 数学 运算 习惯 , “ 先 括号 再 次 方 接着 乘除 后 加 减 ”(PEMDAS) 会 帮助 你 记 住 运算 
顺序 。 

。 括号 拥有 最 高 运算 优先 级 ， 让 表达 式 按 特定 顺序 执行 运算 。 括 号 内 的 表达 式 优先 进行 运 
算 ， 例 如 ，2 (3-7) 等 于 4，(1+1)**(5-2) 等 于 5。 有 时 候 ， 括 号 即便 没有 改变 运算 结果 ， 但 
可 以 阅读 起 来 更 加 方便 ， 例 如 ， (minute 100) / 60。 

。 咎 运算 的 级 别 仅 次 于 括号 ， 例 如 ，2*#*1+1 等 于 3， 而 不 是 4，3*1**3 等 于 3， 而 不 是 27。 

。 乘法 和 除法 具有 相同 的 优先 级 ， 高 于 加 法 和 减法 。 例 如 ，2*3 -1 等 于 5， 而 不 是 4，6+4/2 
等 于 8， 而 不 是 5。 

。 相同 优先 级 的 运算 符 按 从 左 到 右 的 顺序 依次 运算 。 例 如 ，5-3-1 等 于 1， 而 不 是 3。 先 计算 
5-3 得 到 的 2， 然 后 再 减 1。 


当 不 能 确定 运算 顺序 时 ， 通 常 使 用 括号 来 确保 既定 的 运算 顺序 。 


2.8 模 运 算 


模 的 运算 对 象 是 整数 ， 得 到 的 是 第 一 个 整数 与 第 二 个 整数 相 除 的 余数 。 在 Python 中 ， 模 运算 
符 用 百 分 号 〈%) 表示 ， 语 法 与 其 他 运算 符 一 致 : 


>>> quotient =7 /3 
>>> print quotient 


>>> remainder = 7 % 3 
>>> print remainder 


7 被 3 所 除 的 商 是 2， 余 数 是 1。 


模 运 算 非 常 实 用 。 举 例 来 说 ， 你 可 以 检验 一 个 数 是 否 能 被 另 一 个 数 整除 ， 如 果 x%y 的 结果 是 
0， 那 么 x 能 被 y 整 除 。 


另外 ， 模 运算 也 可 以 提取 出 一 个 数字 最 右边 的 数位 。 举 例 来 说 ，x%10 可 以 提取 出 一 个 数 最 右 
边 的 一 位 数字 (以 10 为 基数 ) 。 同 理 ，x%100 可 以 提取 出 一 个 数 最 右边 的 两 位 数字 。 


2.9 字符 串 运 算 符 
加 号 的 过 算 对 象 是 字符 串 ， 它 会 把 字符 串 首尾 相连 。 这 里 不 是 数学 意义 上 的 加 号 。 例 如 : 


>>> first = 10 
>>> Second = 15 
>>> print first+second 


25 
>>> first = '100" 
>>> Second = '150' 


>>> print first + second 
100150 


这 个 程序 的 输出 结果 是 100150。 


2.10 请 求 用 户 输入 


有 时 候 我 们 希望 获取 用 户 通 过 键盘 输入 的 值 。Python 提 供 了 一 个 输入 画 数 raw_input， 用 来 获 
取 键 瘟 输 入 3。 当 调用 这 个 函数 时 ， 程 序 会 暂停 运行 ， 等 待 用 户 的 输入 。 当 用 户 按 下 回 车 键 
时 ， 程 序 就 恢复 运行 ，raw_input 范 数 以 字符 串 形 式 返回 用 户 输 入 的 值 。 


>>> input = raw_input() 
Some silly stuff 

>>> print input 

Some silly stuff 


从 用 户外 获取 输入 之 前 ， 最 好 打印 一 条 提示 语句 ， 告 诉 用 户 可 以 输入 些 什么 。 在 程序 暂停 等 
待 用 户 输入 之 前 ， 你 可 以 在 raw_input 中 插入 一 个 字符 串 来 提示 用 户 。 


>>> name = raw_input('What is your name?\n') 
What is your name? 

Chuck 

>>> print name 

Chuck 


提示 语 结尾 的 \n 表示 新 开辟 一 行 ， 它 是 一 个 用 于 换行 的 特殊 字符 。 这 样 一 来 ， 用 户 输入 的 位 
置 出 现在 提示 语句 的 下 面 。 


如 果 希 望 用 户 输 入 一 个 整数 ， 你 可 以 尝试 int() 画 数 ， 将 返回 的 值 转换 成 整数 型 : 


What...is the airspeed velocity of an unladen swallow? 
17 

>>> int(speed) 

17 

>>> int(speed) + 5 

22 


但 是 ， 如 果 用 户 输入 的 不 是 数字 组 成 的 字符 串 ， 那 么 就 会 报错 : 


>>> Speed = raw_input(prompt) 

What...is the airspeed velocity of an unladen swallow? 
What do you mean, an African or a European swallow? 
>>> int(speed) 


随后 会 介绍 如 何 义理 这 类 错误 。 


2.11 注释 


当 程序 变 得 越 来 越 复杂 ， 阅 读 难度 也 随 之 增 大 。 正 规 的 程序 代码 很 密集 ， 经 常会 遇 到 看 不 懂 
这 段 代 码 是 做 什么 的 ， 或 者 为 什么 要 这 样 写 。 





为 解决 这 个 问题 ， 在 程序 代码 中 加 入 自然 语言 说 明 ， 解 释 这 段 代 码 的 作用 ， 这 会 是 一 个 不 错 
的 主意 。 这 些 说 明 称 为 注释 ， 它 们 以 # 号 开头 : 


# Compute the percentage of the hour that has elapsed 
percentage = (minute * 100) / 60 


上 面 这 种 情况 ， 注 释 本 身 占 一 行 。 你 也 可 以 把 它 加 到 一 行 代码 的 末尾 : 


percentage = (minute * 100) / 60 # percentage of an hour 


从 # 号 开始 到 这 一 行 的 最 后 ， 编 译 时 都 会 被 忽略 掉 ， 它 们 不 会 对 程序 产生 任何 影响 。 


对 代码 不 显著 的 特征 进行 说 明 时 ， 注 释 非常 有 用 。 注 释 会 帮助 代码 阅读 者 搞 清楚 这 段 代码 的 
作用 。 注 释 用 于 代码 为 什么 这 样 写 的 解释 ， 同 样 有 用 。 


下 面 这 行 注释 明显 是 多 余 的 ， 没 什么 作用 : 


vV=5 # assign 5 to V 


而 下 面 的 这 行 注释 则 包含 了 有 用 的 信息 : 


V=5 # velocity in meters/second. 


清晰 易 懂 的 变量 名 能 够 减少 注释 的 使 用 ， 但 是 变量 名 如 果 太 长 ， 就 会 使 复杂 的 表达 式 变 得 更 
加 难 懂 ， 所 以 需要 权衡 利 疾 。 








2.12 选择 易 记 的 变量 


只 要 遵循 变量 命名 的 简单 规则 ， 避 免 使 用 保留 字 ， 变 量 的 命名 还 是 有 很 多 种 选择 的 。 编 程 人 
门 阶段 ， 你 在 阅读 别人 的 程序 和 编写 自己 的 程序 时 ， 对 变量 的 命名 可 能 会 感到 困惑 。 例 如 ， 
下 面 三 个 程序 实质 上 是 一 桩 的 ， 但 是 阅读 和 理解 起 来 差别 很 大 。 


a= 35.0 
b = 12.50 
c=a*b 
print c 


hours = 35.0 
rate = 12.50 
pay = hours * rate 


print pay 
x1iq3z9ahd = 35.0 
x1q3z9afd = 12.50 


x1iq3p9afd = xiq3z9ahd * x1q3z9afd 
print x1q3p9afd 


Python 解 释 器 对 这 三 个 程序 的 处 理 方式 完全 一 样 ， 但 是 对 于 读者 理解 起 来 差异 很 大 。 污 者 能 
够 快速 看 懂 的 是 第 二 个 程序 ， 这 是 因为 程序 员 选 择 了 能 够 代表 变量 取 值 含义 的 变量 名 。 





这 种 变量 命名 法 称 为 “ 助 记 变量 命名 法 ”。 助 记 4 的 意思 就 是 帮助 记忆 。 选 择 易于 记忆 的 变量 
名 ， 有 助 于 我 们 记 住 当初 创建 这 个 变量 是 为 了 做 什么 。 

这 看 起 来 不 错 ， 使 用 助 记 变量 命名 法 是 一 个 好 主意 ， 但 可 能 也 会 对 初学 者 解析 与 理解 代码 上 
产生 负面 影响 。 由 于 初学 者 可 能 还 没有 记 全 Python 的 31 个 保留 字 ， 如 果 变 量 名 中 包含 太 多 描 
述 性 的 词语 ， 精 心 命名 的 变量 看 上 去 会 像 是 Python 语言 的 一 部 分 ， 对 初学 者 理解 上 造成 二 
扰 。 

下 面 两 行 简单 的 Python 代码 实现 了 循环 。 循 环 特 在 第 5 章 介绍 ， 这 里 尝试 猜 猜 这 两 行 代码 的 含 
又 : 


for word in words : 
print word 


执行 上 面 的 代码 会 发 生 什么 ?for、word、in 等 这 几 个 词 中 哪些 是 保留 字 ， 哪 些 是 变量 名 ? 
Python 能 理解 单词 的 基本 含义 吗 ?初学 者 很 难 分 辨 出 代码 中 哪些 部 分 必须 照抄 示例 中 的 ， 而 
哪些 部 分 是 可 以 自主 选择 的 。 


下 面 的 代码 和 上 面 的 代码 实质 上 是 一 样 的 : 


for slice in pizza: 
print slice 


通过 观察 两 段 代 码 ， 初 学 者 可 以 容易 地 分 辨 哪些 是 Python 保留 字 ， 哪 些 是 程序 员 自 己 定义 的 
变量 名 。 显 而 易 见 ，Python 不 能 理解 pizza 和 slice 之 间 的 差别 ， 实 际 上 就 是 一 个 披萨 可 以 切 成 
很 多 块 。 


如 果 程 序 要 读 取 数据 并 在 数据 中 查找 单词 ，pizza 和 slice 是 不 容易 记 住 的 变量 名 。 选 择 它们 作 
为 变量 名 会 偏离 程序 的 本 意 。 


过 不 了 多 久 ， 你 会 熟悉 最 常用 的 保留 字 并 在 程序 中 注意 到 它们 : 
for word in words: print word 


这 段 Python 代 码 中 for 、in 、print 和 :加 粗 显 示 ， 程 序 员 自己 定义 的 变量 名 不 加 粗 。 很 多 文本 编 
辑 器 支持 Python 语法 ， 它 们 会 使 用 不 同 的 颜色 来 标记 保留 字 ， 让 你 能 方便 地 区 分 保留 字 和 与 变 
量 名 。 熟 悉 一 段 时 间 后 ， 你 就 会 很 快 地 区 分 哪些 是 保留 字 ， 哪 些 是 变量 名 。 


2.13 调试 


最 容易 出 现 的 语法 错误 是 不 合法 的 变量 名 ， 例 如 ，class 和 yield 是 保留 字 ， 或 者 包含 不 合法 字 
符 的 odd~job 和 US$。 


如 果 变 量 名 中 存在 空格 ，Python 会 认为 它 是 没有 运算 符 的 两 个 运算 对 象 : 


>>> bad name = 5 
SyntaxError: invalid syntax 


语法 错误 的 提示 信息 提供 不 了 什么 帮助 。 最 常见 的 错误 信息 是 SyntaxError: invalid syntax 和 
SyntaxError: invalid token， 这 两 条 都 没有 提供 什么 有 价值 的 信息 。 

最 常 遇 到 的 运行 错误 是 “Use before def;”， 这 个 错误 的 意思 是 使 用 了 一 个 还 没有 赋值 的 变量 。 
这 


种 情况 容易 出 现在 变量 名 拼写 错误 的 情况 : 


>>> principal = 327.68 
>>> interest = principle * rate 
NameError: name 'principle' is not defined 


变量 名 区 分 大 小 写 ， 例 如 ，LaTeX 和 latex 是 不 一 样 的 。 


最 容易 出 现 的 语义 错误 是 运算 顺序 。 举 例 来 说 ，\M\dfrac{1H2TT \) 可 能 会 写成 这 样 : 


ET 全 和 0 本 可 ol 


这 个 语句 首先 进行 除法 运算 ， 得 到 的 结果 是 T/2， 显 然 跟 \ \dfrac{1H2T} \) 不 是 一 回 事 ! 
Python 并 不 明白 这 个 表达 式 是 什么 意思 。 这 种 情况 下 虽然 不 会 报错 ， 但 计算 结果 是 错误 的 。 


2.14 术语 


赋值 : 给 变量 赋予 一 个 值 的 语句 。 
连接 : 将 两 个 运算 对 象 首 尾 相 接 。 


注释 : 程序 里 面包 含 的 信息 ， 旨 在 帮助 其 他 程序 员 (或 者 查看 源 代码 的 人 ) 理解 程序 ， 不 会 
对 程序 的 执行 产生 任何 影响 。 


求 值 : 对 表达 式 执 行 运算 ， 得 到 一 个 值 。 

表达 式 : 变量 、 运 算 符 和 值 的 组 合 ， 表 示 一 个 结果 值 。 

浮 点 : 带 有 小 数 部 分 的 数值 。 

地 板 除 法 : 截 掉 两 数 相 除 所 得 结果 的 小 数 部 分 的 一 种 除法 运算 。 
整数 型 : 代表 整数 类 型 。 


关键 字 : Python 解释 器 用 来 解析 程序 的 保留 字 。 变 量 命名 不 可 使 用 保留 字 ， 例 如 ， 和 让 de 人 
while 等 。 


助 记 法 : 一 种 辅助 记忆 的 方法 。 通 常 使 用 易 记 的 变量 名 来 帮助 我 们 理解 变量 本 身 包含 的 内 


容 。 

模 运算 : 用 百 分 号 (%) 表示 ， 求 两 数 相 除 的 余数 。 

运算 对 象 : 运算 符 操 作 的 对 象 。 

算 符 : 能 够 进行 简单 运算 的 一 类 特殊 符号 ， 例 如 ， 加 法 、 乘 法 和 字符 串 连 接 。 


RY 


运算 优先 级 : 一 组 运算 规则 ， 用 来 规定 多 个 运算 符 和 运算 对 象 的 表达 式 中 运算 执行 的 次 序 。 
语句 : 包含 指 舍 和 行动 的 一 段 代 码 。 目 前 为 止 ， 我 们 见 到 了 赋值 语句 和 打印 语句 。 

字符 串 : 由 字符 序列 组 成 的 数据 类 型 。 

类 型 : 表示 一 类 值 。 目 前 为 止 ， 我 们 见 到 了 整数 (int) ， 浮 点 数 (float) 和 字符 串 (str) 。 
值 : 数据 的 基本 单位 ， 例 如 ， 程 序 中 可 以 操作 的 数字 或 字符 串 。 

变量 : 一 个 值 的 引用 名 称 。 


2.15 练习 


习题 2.2 使 用 raw_input 编 写 一 个 程序 ， 提 示 用 户 输入 姓名 ， 然 后 打印 出 欢迎 语 。 


Enter your name: Chuck 
Hello Chuck 


习题 2.3 编写 一 个 程序 ， 让 用 户 输 入 工时 和 时 薪 ， 然 后 计算 出 工资 总 领 。 


Enter Hours: 35 
Enter Rate: 2.75 
Pay: 96.25 


暂时 不 用 担心 结果 是 否 精确 到 小 数 点 后 两 位 。 如 果 需 要 精确 到 小 数 点 后 两 位 ， 可 以 使 用 
Python 内 置 的 round 玉 数 。 


习题 2.4 执行 下 面 的 赋值 语句 : 


width = 17 
height = 12.0 


写 出 以 下 表达 式 的 值 及 值 的 类 型 。 


1. width/2 
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2. width/2.0 


3. height/3 
4. 1+2*5 


使 用 Python 解释 器 检查 你 的 结果 是 否 正确 。 


习题 2.5 编写 一 个 程序 ， 让 用 户 输 入 摄氏 温度 ， 然 后 将 
度 值 打印 出 来 。 


其 转化 成 华氏 温度 ， 最 后 
1. Python 3.0 中 ，exec 不 再 是 保留 关键 字 ，nonlocal 是 新 的 保留 关键 字 。 
2. Python 3.0 中 ， 做 除法 的 结果 是 浮 点 数 。 新 的 运算 符 // 做 整数 除法 。 e 

这 个 函数 称 为 input。 
4. " 助 记 "的 有 关 详 细 介 绍 


3. Python 3.0 中 ， 


PE 


请 参见 


http://en.wikipedia.org/wiki/ Mnemonic © 








后 将 转化 后 的 温 
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第 3 章 条 件 执行 


3.1 布尔 表达 式 


布尔 表达 式 是 具有 真 或 假 状态 的 一 种 表达 式 。== 运 算 符 用 来 比较 两 个 运算 对 象 ， 若 两 者 相等 
返回 True， 否 则 返回 False : 


这 
True 
>>>5 ==20 
False 


True 和 False 是 布尔 类 型 的 两 个 取 值 ， 它 们 不 是 字符 串 : 


>>> type(True) 
<type 'bool'> 
>>> type(False) 
<type 'bool'> 


== 运 算 符 是 比较 运算 符 中 的 一 个 ， 其 他 的 比较 运算 符 如 下 : 


x !=y # x is not equal to y 

X > y # x is greater than y 

XY # x is less than y 

x >= y # x is greater than or equal to y 

x <= y # x is less than or equal to y 

x isy # x is the same as y 

x is not y # x is not the Same as y 
虽然 你 可 能 很 熟悉 这 要 但 要 注意 这 些 Python 符 号 并 不 等 同 于 数学 符号 。 一 个 常见 的 
苦 误 是 用 单 等 号 (=) ， 而 没有 用 双 等 号 (==) 。 请 记 住 ，= 是 赋值 运算 符 ，== 是 比较 运算 


符 。 ee 


号 运算 符 


逻辑 运算 符 包 括 and (与 ) 、or (或 ) 与 not ( 非 ) 三 种 。 这 些 运算 符 的 语义 与 它们 的 英文 合 
义 相 似 。 例 如 ， 


x>0 andx < 10 


若 x 大 于 0 且 小 于 10， 则 为 真 。 
若 nx2 == 6 or n%3 == 6 其 中 有 一 个 条 件 为 真 ， 即 这 个 数字 能 被 2 或 3 整除 ， 则 为 真 。 


not 运 算 符 是 表示 否定 的 布尔 表达 式 。 若 x > y 为 假 ， 即 x 小 于 或 者 等 于 y， 那 么 not (x > y) 
为 真 。 


严格 讲 ， 逻 辑 运 算 符 的 运算 对 象 应 该 是 布尔 表达 式 ， 但 在 Python 中 并 不 是 很 严格 。 任 何 非 震 
数字 都 可 看 作 是 “ 真 ”。 


>>> 17 and True 
True 


这 种 灵活 性 的 存在 是 有 用 的 ， 但 也 会 产生 一 些微 妙 的 困惑 。 除 非 你 清楚 自己 在 做 什么 ， 否 则 
不 要 乱用 。 


3.3 条 件 执行 


为 了 编写 出 有 用 的 程序 ， 几 乎 总 是 需要 根据 条 件 ， 修 改 程序 相应 的 行为 。 条 件 语句 赋予 我 们 
这 种 能 力 。 最 简单 的 条 件 形式 是 if 语句 : 


0 


print 'x is positive' 


if 语 句 后 的 布尔 表达 式 称 为 条 件 。if 语 句 的 末尾 用 冒号 (:)，if 语 句 之 后 的 语句 要 缩 进 。 


hss - 
1 


no | print 'x is positive' 





若 逻 辑 条 件 为 真 ， 那 么 缩 进 的 语句 得 以 执行 。 若 逻辑 条 件 为 假 ， 那 么 缩 进 的 语句 就 会 被 跳 
过 


if 语 句 与 for 循 环 1 的 画 数 定义 具有 相同 的 结构 。 语 句 由 一 个 以 冒号 (:) 结束 的 标题 行 和 随后 的 
一 个 代码 缩 进 区 域 构成 。 由 于 包含 多 行 ， 这 样 的 语句 被 称 为 复合 语句 。 


语句 块 内 没有 语句 的 数量 限制 ， 但 至 少 要 有 一 行 。 有 时 候 ， 空 白 的 语句 块 也 是 有 用 的 ， 通 常 
是 为 还 未 写 的 代码 预 留 空 间 。 在 这 种 情况 下 ， 使 用 pass 语 句 ， 表 示 什 么 也 不 做 。 


X00 
pass # need to handle negative values! 


如 果 在 Python 解释 器 里 输入 一 个 if 语句 ， 提 示 符 会 从 三 个 “>" 变 成 三 个 “”， 表 明正 义 在 一 个 语句 
块 内 ， 如 下 所 示 : 


之 之 > 四 X 征 三重 3 


>>> if x < 10: 


print 'Small' 
Small 
>>> 


3.4 分 文 执行 


if 语句 的 第 二 种 形式 是 选择 执行 。 语 句 中 存在 两 种 可 能 ， 条 件 决定 了 执行 哪 一 种 。 语 法 如 下 : 


If x%2 == 0 : 

print 'x is even' 
else : 

print 'x is odd' 


若 x 除 以 2 的 余数 为 0， 则 x 是 偶数 ， 程 序 就 执行 第 一 个 print 语 句 ， 显 示 "X is even”。 若 余数 不 为 
0， 则 else 之 后 的 第 二 个 print 语 句 得 以 执行 。 








print 'x is odd' print 'x is even' 


由 于 条 件 必须 为 真 或 假 ， 所 以 两 条 备 选 语句 中 总 有 一 条 会 被 执行 。 这 些 备 选 语句 称 为 执行 流 
程 中 的 分 支 。 





3.5 链 式 条 件 


有 时 候 存在 两 种 以 上 的 可 能 ， 那 么 就 需要 两 个 以 上 的 分 支 。 链 式 条 件 可 以 处 理 这 种 情况 。 


elif 是 “else if' 的 缩写 ， 表 示 又 有 一 个 分 支 将 被 执行 。 





print 'less' | 一 


print greater | 





print 'edual 


elif 语 句 没 有 数量 限制 。 如 果 还 有 一 个 else 子 句 ， 那 它 必须 是 最 后 一 个 ， 但 是 else 子 句 不 是 必 
须 的 。 








if choice == 'a': 
print 'Bad guess' 
elif choice == 'b': 
print 'Good guess' 
elif choice == 'c': 
print 'Close, but not correct 


依次 检查 每 个 条 件 。 如 果 第 一 个 为 假 ， 就 检查 第 二 个 ， 以 此 检查 下 去 。 如 果 其 中 一 个 条 件 为 
真 ， 则 执行 相应 的 分 支 ， 至 此 语句 结束 。 即 使 不 止 一 个 条 件 为 真 ， 也 只 执行 第 一 个 为 真 的 分 
支 。 


3.6 骸 套 条 件 


一 个 条 件 语句 也 可 以 嵌 套 到 另 一 个 条 件 语句 中 。 我 们 可 以 写 出 三 分 条 件 的 例子 : 


if x == y: 
print 'x and y are equal' 
else: 
XV 
print 'x is less than y' 
else: 


print 'x is greater than y' 


外 面 的 条 件 语句 包 售 了 两 个 分 支 。 第 一 条 分 支 包含 了 一 个 简单 语句 。 第 二 条 分 支 包 含 了 另 一 
个 由 两 个 分 支 组 成 的 if 语 句 。 这 两 个 分 支 都 是 简单 语句 ， 虽 然 这 两 个 分 支 包含 条 件 语句 ， 但 它 
们 都 是 简单 语句 。 








VeS mo 
| | 


print ‘equal | | print ‘less | print greater 


2 





虽然 缩 进 让 语句 结构 变 得 清晰 ， 但 是 酝 套 条 件 还 是 很 难 快速 地 阅读 。 一 般 情 况 下 ， 还 是 尽量 
避免 使 用 。 


逻辑 运算 符 通常 提供 一 种 方法 来 简化 谋 套 条 件 语句 。 例 如 ， 使 用 单个 条 件 改写 以 下 代码 : 


If 0 < x: 
If x < 10: 
print 'x is a positive single-digit number.' 


当 两 个 条 件 都 满足 时 ，print 语 句 才 会 执行 。 使 用 and 运 算 符 也 能 达到 相同 的 效果 : 


if 0 < x and x < 10: 
print 'x is a positive single-digit number.' 


3.7 try 与 except 异 常 捕获 


之 前 我 们 看 到 过 一 段 代码 ， 使 用 raw_input 和 int 画 数 读 取 和 解析 用 户 输入 的 整数 。 由 此 带 来 的 
潜在 危险 是 : 


>>> speed = raw_input(prompt) 

What...is the airspeed velocity of an unladen swallow? 
What do you mean, an African or a European swallow? 
>>> int(speed) 

ValueError: invalid literal for int() 

>>> 


在 Python 解释 器 中 执行 这 些 语 句 ， 提 示 “和 值 错误 *， 然 后 会 新 起 一 行 ， 等 待 下 一 条 语句 的 输 
人 。 


如 果 把 这 段 代 码 放 在 Python 脚本 文件 中 ， 当 错误 发 生 时 ， 脚 本 的 执行 会 立即 停止 在 这 一 行 ， 
并 返回 错误 消息 ， 之 后 的 语句 不 会 被 执行 。 


inp = raw_input('Enter Fahrenheit Temperature:') 
fahr = float(inp) 

cel = (fahr - 32.0) * 5.0 / 9.0 

print cel 


如 果 我 们 执行 这 段 代码 ， 输 入 一 个 无 效 的 值 ， 它 会 停止 执行 ， 并 返回 一 个 不 友好 的 错误 信 
息 : 


python fahren.py 
Enter Fahrenheit Temperature:72 
22.2222222222 


python fahren.py 
Enter Fahrenheit Temperature:fred 
Traceback (most recent call last): 
File "fahren.py", line 2, in <module> 
fahr = float(inp) 
ValueError: invalid literal for float(): fred 


Python 内 置 了 “try/except" 条 件 执 行 结 构 ， 用 来 解决 意料 之 中 和 意料 之 外 的 错误 。 你 知道 程序 
可 能 存在 问题 ， 希 望 在 错误 发 生 时 增加 一 些 语句 ， 这 时 try 和 except 就 派 上 用 场 了 。 如 果 没 
出 错 ， 这 些 额外 的 语句 (except 语句 块 ) 就 会 被 忽略 掉 。 


你 可 以 把 Python 的 try 和 except 功 能 看 作 是 程序 的 保险 单 。 
温度 转换 程序 重新 编写 如 下 : 


inp = raw_input('Enter Fahrenheit Temperature:') 


try: 
fahr = float(inp) 
cel = (fahr - 32.0) * 5.0 / 9.0 
print cel 

except: 


print 'Please enter a number' 


Python 首 先 执行 try 语 句 块 。 如 果 一 切 顺利 ， 它 就 会 跳 过 except 语 句 块 。 如 果 在 try 语 句 块 里 发 
生意 外 ，Python 就 会 跳出 try 语 句 块 ， 执 行 except 语 句 块 。 


python fahren2.py 
Enter Fahrenheit Temperature:72 
22.2222222222 


python fahren2.py 
Enter Fahrenheit Temperature:fred 
Please enter a number 


用 try 语 句 义理 异常 的 行为 称 为 异常 捕获 。 这 个 示例 中 except 子 句 打 印 了 一 条 错误 提示 信息 。 
一 般 来 说 ， 捕 捉 到 异常 ， 就 是 给 你 一 个 机 会 去 解决 它 ， 或 者 是 再 斌 一次， 至 少 程序 能 正常 结 
束 。 


3.8 逻辑 表达 式 的 短路 评估 


当 Python 人 处 理 诸如 x > = 2 and (x / y)> 2 这 样 的 逻辑 表达 式 时 ， 从 左 至 右 进 行 判 断 。 根 据 
and 的 含义 ， 如 果 x 小 于 2， 则 表达 式 x>=2 为 假 ， 那 么 整个 表达 式 即 为 假 ， 不 管 后 面 的 (x / 
y) > 2 的 判断 是 真 或 假 。 


当 Python 发 现 逻 辑 表 达 式 剩余 部 分 的 判断 没有 意义 了 ， 它 就 停止 对 剩余 部 分 的 判断 。 在 已 知 
逻辑 表达 式 整体 结果 的 情况 下 停止 判断 ， 这 称 为 短路 评估 。 


这 看 起 来 是 一 个 细节 ， 短 路 行为 带 来 了 一 种 灵活 的 义理 方式 ， 称 为 守护 者 模式 。 如 下 是 
Python 解释 器 中 的 一 段 代 码 : 


>>>X@=S6 

>>> y= 2 

>>> x >= 2 and (x/y) > 2 
True 

>> X= 

>>>y=0 


>>> x >= 2 and (x/y) > 2 
False 
>>>X2 =°6 
>>>y=0 
>>> x >= 2 and (x/y) > 2 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ZeroDivisionError: integer division or modulo by zero 
>>> 


第 三 次 计算 出 错 了 。 由 于 y 等 于 0，Python 计 算 (x/y) 时 出 现 运 行 错误 。 但 是 ， 第 二 次 计算 没 
有 出 错 。 由 于 表达 式 第 一 部 分 x > = 2 判断 为 假 ， 所 以 根据 短路 规则 ， (x / y) 根本 没有 被 
执行 ， 所 以 没有 报错 。 


我 们 可 以 在 错误 发 生 之 前 ， 策 略 性 地 放置 一 个 守 扩 评估， 代码 如 下 : 


>>> x 1 
0 


>>> y = 
>>> x >=2 and y != 0 and (xy) > 2 


False 
>>>x=6 
>>>y=0 


>>> x >= 2 and y != 0 and (x/y) > 2 
False 
>>> x >= 2 and (x/y) > 2 and y != 0 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ZeroDivisionError: integer division or modulo by zero 
>>> 


第 一 个 逻辑 表达 式 中 x > = 2 为 假 ， 所 以 在 and 之 前 判断 就 停止 了 。 第 二 个 逻辑 表达 式 中 x > 
= 2 为 真 ， 但 y != 9 为 假 ， 所 以 (x/y) 没有 机 会 得 到 判断 。 


第 三 个 逻辑 表达 式 中 y != 9 位 于 (x/y) 之 后 ， 所 以 这 个 表达 式 的 判断 失败 了 。 
第 二 个 表达 式 中 y != 6@ 作为 一 个 守护 ， 确 保 y 不 等 于 0 时 只 执行 (X/y)。 


3.9 调试 


当 错 误 发 生 时 ，Python 的 追踪 〈Traceback) 显示 很 多 信息 ， 但 有 可 能 消息 过 多 ， 特 别 是 栈 中 
有 很 多 栈 帧 的 情况 。 其 中 最 有 用 的 部 分 是 : 


。 错误 的 类 型 是 什么 


语法 错误 通常 很 容易 找到 ， 但 也 存在 一 些 陷阱 。 空 格 错误 非常 环 手 ， 由 于 空格 和 制 表 符 是 不 
可 见 的 ， 常 常会 被 忽视 。 


> =5 
>>> y=6 
File "<stdin>", line 1 
y=6 
八 


SyntaxError: invalid syntax 


这 个 例子 中 问题 出 在 第 二 行 缩 
导 。 一 般 情况 下 ， 错 误 信 息 会 
之 前 ， 有 时 候 还 会 在 前 一 行 。 


进 只 用 了 一 个 空格 。 但 是 错误 消息 指向 了 y， 这 其 实 是 一 种 误 
显示 问题 在 何 处 被 发 现 ， 但 是 实际 错误 可 能 会 在 所 显示 的 代码 


运行 时 错误 也 是 如 此 。 假 设 用 分 贝 计 算 信 噪 比 ， 公 式 是 MSNR~{db} = 10 log~{10}(\frac{P~ 
{signal}HP~{noise}}))，Python 代 码 如 下 : 


import math 

signal power = 9 

noise_power = 10 

ratio = signal power / noise power 
decibels = 10 * math.10g10(ratio) 
print decibels 


但 是 当 你 执行 这 段 代 码 ， 就 会 收 到 如 下 错误 信息 2 : 


Traceback (most recent call last): 
File "snr.py", line 5, in ? 
decibels = 10 * math.10g10(ratio) 
OverflowError: math range error 


壮 误 信息 显示 第 5 行 出 错 ， 但 那 一 行 没有 错误 。 为 了 找到 真正 的 错误 ， 将 ratio 值 打印 出 来 可 能 
会 有 用 。 错 误 原 来 是 ratio 为 0， 问 题 出 现在 第 4 行 ， 原 因 是 两 数 相 除 采用 的 是 地 板 除 法 (只 取 
整数 ) 。 解 决 方法 是 用 浮 点 数 表示 信号 功率 和 噪声 功率 。 


一 般 情况 下 ， 错 误 信息 会 告诉 你 问题 出 现在 哪 ， 但 这 个 出 错位 置 并 不 准确 。 


3.10 术语 

主体 : 复合 语句 中 的 一 组 语句 。 

布尔 表达 式 : 取 值 只 有 真 (True) 或 假 (False) 其 中 之 一 的 表达 式 。 

分 支 : 条 件 语句 中 可 供 选择 的 一 组 语句 。 

链 式 条 件 : 带 有 多 个 可 选 分 支 的 条 件 语句 。 

比较 运算 符 : 对 运算 对 象 进行 比较 的 一 种 运算 符 ， 包 括 ==、!=、 >、 <、 >=, 和 <=。 
条 件 语 句 : 根据 某 些 条 件 来 控制 程序 执行 顺序 的 语句 。 

条 件 : 条 件 语句 中 的 布尔 表达 式 ， 用 来 决定 执行 哪 一 个 分 支 。 


复合 语句 : 含有 头 部 和 主体 的 一 组 语句 。 代 码头 部 以 冒号 (:) 结尾 。 代 码 主体 相对 于 代码 头 
部 进行 缩 进 。 


守护 模式 : 通过 额外 的 比较 来 构造 逻辑 表达 式 ， 充 分 利用 短路 行为 优势 。 
逻辑 运算 符 : 组 合 布尔 表达 式 的 运算 符 ， 包 括 and、or 和 not。 

岩 套 条 件 : 一 个 条 件 语 名 作为 另 一 个 条 件 语 句 的 分 支 。 

追踪 : 正在 执行 的 函数 列表 ， 当 出 现 异常 时 ， 在 屏幕 上 显示 出 来 。 


短路 : 在 判断 逻辑 表达 式 的 过 程 中 ， 如 果 Python 已 经 知道 了 最 终结 果 ， 则 会 停止 ， 不 会 对 剩 
余 的 表达 式 进行 判断 。 


3.11 练习 


习题 3.1 重 写 薪水 计算 公式 ， 如 果 员 工 工 作 时 间 超过 40 小 时 ， 按 平常 薪水 的 1.5 倍 支付 。 


Enter Hours: 45 
Enter Rate: 10 
Pay: 475.0 


习题 3.2 运用 try 和 except 重 写 支付 程序 ， 让 程序 可 以 正常 处 理 非 数 字 输 入 的 情况 ， 如 果 是 非 数 
字 办 入， 打印 消息 并 退出 程序 。 以 下 是 程序 的 两 种 执行 结 


Enter Hours: 20 
Enter Rate: nine 
Error, please enter numeric input 


Enter Hours: forty 
Error, please enter numeric input 


习题 3.3 编写 一 个 程序 ， 提 示 分 数 在 0.0 和 1.0 之 间 。 如 果 分 数 超出 这 个 范围 则 打印 出 错误 。 如 
果 分 数 在 0.0 和 1.0 之 间 ， 使 用 下 面 的 表格 打印 分 数 : 


Score Grade 


>= 0.9 A 
>= 0.8 B 
>= 0.7 C 
>= 0.6 D 
< 0.6 F 


Enter Score: 0.95 
A 


Enter Score: perfect 
Bad Score 


Enter Score: 10.0 
Bad Score 


Enter Score: 0.75 
C 


Enter Score: 0.5 
F 


ml 
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重复 运行 这 个 程序 ， 测 试 不 同 的 输入 值 。 
1 第 4 章 介绍 画 数 ， 第 5 章 介绍 循环 。 e 


2. Python3.0 中 ， 不 再 给 出 错误 消息 。 即 使 是 整数 对 象 ， 


法 。 人 


条 件 执 行 


除法 运算 符 执行 的 也 是 浮 点 除 
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第 4 章 函数 


4.1 函数 调用 


编程 中 的 男 数 是 执行 计算 的 一 个 命名 语句 序列 。 当 定义 豆 数 时 ， 需 要 指定 琅 数 名 和 语句 顺 
序 。 定 义 好 之 后 ， 通 过 图 数 名 就 可 以 调用 男 数 。 之 前 我 们 见 到 过 一 个 图 数 示例 : 


>>> type(32) 
<type 'int'> 


这 个 函数 的 名 称 是 type 。 括 号 里 面 的 表达 式 称 为 落 数 的 参数 。 参 数 可 以 是 一 个 值 或 变量 ， 作 
为 函数 的 输入 。type 画 数 的 作用 是 显示 参数 的 类 型 。 


一 般 而 言 ， 画 数 获取 参数 ， 然 后 返回 结果 。 这 个 结果 称 为 返回 值 。 


4.2 内 置 芳 数 

Python 提 供 了 很 多 重要 的 内 置 画 数 ， 不 需要 我 们 预先 定义 就 可 以 使 用 。Python 开 发 者 定义 了 
解决 常见 问题 的 函数 集 ， 内 置 在 Python 中 ， 供 我 们 使 用 。 

max 阔 数 和 min 函 数 分 别 求 得 一 个 列表 中 的 最 大 值 和 最 小 值 : 


>>> max('Hello world') 
i'w! 
>>> min('Hello world') 


ee 


max 枉 数 告诉 我 们 ， 这 个 字符 串 中 最 大 的 字符 是 〈“w") ，min 函 数 告诉 我 们 这 个 字符 串 中 最 小 
的 字符 是 空格 符 。 


另 一 个 常用 的 内 置 画 数 是 len 函 数 ， 返回 参数 的 长 度 。 如 果 len 函 数 的 参数 是 一 个 字符 上 串 ， 
那么 之 问 的 是 这 个 字 竺 的 字符 到 


>>> len('Hello world') 
11 
>>> 


这 些 画 数 不 仅 可 用 于 字符 串 ， 还 能 操作 其 他 数据 类 型 ， 后 续 章 节 会 涉及 到 。 


你 可 以 将 内 置 画 数 类 上 比 为 保留 字 ， 举 例 来 说 ， 不 要 使 用 “max” 作 为 变量 名 。 


类 型 转换 图 数 


Python 提 供 了 将 一 种 类 型 转换 成 另 一 种 类 型 的 内 置 函 数 。 在 允许 的 情况 下 ，int 函 数 能 把 任何 
其 他 类 型 的 值 转化 成 整数 型 ， 如 果 不 能 转换 就 会 报错 : 


>>> int('32') 

32 

>>> int('Hello') 

ValueError: invalid literal for int(): Hello 


int 函 数 能 将 浮 点 型 转换 成 整数 型 ， 但 是 它 不 进行 四 舍 五 人 ， 只 是 直接 去 掉 小 数 部 分 : 


>>> int(3.99999) 
3 

>>> int(-2.3) 

2 


float 函 数 能 把 整数 型 和 字符 串 型 转换 成 浮 点 型 : 


>>> float(32) 

32.0 

>>> float('3.14159') 
3.14159 


str 本 数 能 把 传 入 的 参数 转换 成 字符 串 型 : 


>>> Str(32) 

1321 

>>> str(3.14159) 
"3.14159 


4.4 随机 数 


既定 输入 的 情况 下 ， 大 部 分 的 计算 机 程序 每 次 都 会 产生 相同 的 输出 ， 也 就 是 说 这 是 板 上 第 条 
的 事情 。 一 般 而 言 ， 确 定性 是 好 的 ， 我 们 希望 同一 个 算法 产生 相同 的 结果 。 然 而 ， 有 些 时 候 
我 们 希望 计算 机 具备 不 确定 性 ， 比 如 游戏 就 是 一 个 典型 例子 ， 当 然 还 有 很 多 其 他 例子 。 


让 一 个 程序 完全 处 于 不 确定 状态 。 这 很 难 做 到 。 但 是 ， 有 一 些 方法 可 以 让 它 看 起 来 具有 不 确 
定性 。 一 种 方法 是 利用 算法 产生 伪 随 机 数 。 伪 随机 数 并 不 是 真正 的 随机 数 ， 原 因 在 于 它们 是 
利用 确定 的 算法 计算 出 来 的 。 单 看 这 些 数字 并 不 会 发 现 它们 和 真正 的 随机 数 有 什么 不 同 。 


随机 数 模块 提供 了 伪 随 机 数 生成 的 函数 ， 以 下 简称 "random "。 


random 辑 数 返 回 一 个 介 于 0.0-1.0 的 随机 浮 点 数 (包括 0.0， 但 不 包括 1.0) 。 每 次 调用 时 ， 你 
会 得 到 一 长 串 的 数字 。 举 例 来 说 ， 执 行 下 面 的 循环 语句 : 


Import random 


for i in range(10): 
x = random.random() 
print x 


程序 生成 了 10 个 介 于 0.0-1.0 之 间 但 不 包括 1.0 的 随机 数 。 


301927091705 
513787075867 
319470430881 
285145917252 
839069045123 
322027080731 
550722110248 
366591677812 
396981483964 
838116437404 
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习题 4.1 运行 以 下 程序 并 观察 得 到 的 结果 ， 不 妨 多 运行 几 次 看 看 。 


random 辑 数 只 是 众多 随机 数 函 数 中 的 一 个 。randint 画 数 传 入 两 个 整数 参数 ， 并 返回 介 于 这 两 
个 参数 之 间 的 整数 (包括 这 两 个 参数 在 内 ) 。 


>>> random.randint(5, 10) 
5 
>>> random.randint(5, 10) 
9 


为 取得 一 组 值 中 的 随机 元 素 ， 可 以 使 用 下 面 的 程序 : 


>>> t = [1, 2, 3] 
>>> random.choice(t) 
2 

>>> random.choice(t) 
3 


random 模 块 还 提供 了 从 连续 分 布 画 数 中 提取 随机 值 的 函数 ， 包 括 高 斯 画 数 、 指 数 酌 数 、 仰 玛 
函数 等 。 


4.5 数学 函数 


Python 的 math 模 块 提供 了 很 多 常见 的 数学 函数 。 在 使 用 之 前 要 导入 相应 的 包 : 


>>> import math 


这 条 语句 创建 了 一 个 名 为 math 的 模块 对 象 。 如 果 将 这 个 模块 对 象 打 印 出 来 ， 就 会 得 到 关于 它 
的 一 些 信息 : 


>>> print math 
<module 'math' from '/usr/lib/python2.5/lib-dynload/math.so'> 


个 模块 对 象 包 括 了 模块 中 定义 的 函数 和 交 量 。 为 了 使 用 其 中 的 函数 ， 你 必须 指定 模块 名 和 
ee 用 圆 点 隔 开 ， 也 就 是 英文 的 句号 。 这 种 格式 叫做 点 标记 (dot notation) 。 


>>> ratio = signal power / noise_power 
>>> decibels = 10 * math,1og10(ratio) 


>>> radians = 0.7 
>>> height = math.sin(radians) 


第 一 个 例子 是 计算 以 10 为 诡 的 信 品 比 的 对 数 。math 模 块 还 提供 了 log 函 数 用 来 求 以 e 为 诡 的 对 
数 。 


第 二 个 例子 调用 了 正弦 函数 。 变 量 名 字 给 出 了 提示 ， 除 了 正弦 画 数 ， 还 有 余弦 ， 正 切 等 其 他 
三 函数 都 采用 弧度 作为 参数 。 将 度数 转换 成 弧度 的 运算 是 除 以 360， 然 后 乘 以 2T : 


>>> degrees = 45 

>>> radians = degrees / 360.0 * 2 * math.pi 
>>> math.sin(radians) 

0.707106781187 


math.pi 表 达 式 从 math 模 块 中 取得 变量 pi 的 值 。 这 个 变量 是 T 的 一 个 近似 值 ， 保 留 了 小 数 点 后 
15 位 数 。 


运用 你 的 平面 几何 知识 ， 和 与 2 的 平方 根 再 除 以 2 的 结果 进行 比较 ， 检 查 程 序 输出 是 否 正 确 。 


>>> math.sqrt(2) / 2.0 
0.707106781187 


4.6 定义 新 函数 


A i 函数 ， 除 此 之 外 也 可 以 自 定义 新 函数 。 
数 名 和 一 组 语句 序列 来 定义 一 个 新 逆 数 ， 然 后 在 执行 时 调用 这 个 画 数 。 i 
数 ， 程 序 ee 


def print_lyrics(): 
print "I'm a lumberjack, and I'm okay." 
print 'I sleep all night and I work all day.' 


def 是 用 来 定义 图 数 的 保留 关键 字 。 这 个 图 数 的 名 称 是 print_lyrics。 图 数 命名 与 变量 命名 的 规 
则 基本 上 是 一 样 的 。 字 母 、 数 字 以 及 一 些 符号 是 合法 的 ， 但 是 函数 名 的 第 一 个 字符 不 能 是 关 
字 。 不 能 使 用 保留 关键 字 命 名 画 数 ， 也 要 避免 画 数 名 和 变量 名 相同 。 


豆 数 名 后 面 的 空 括号 表明 这 个 图 数 没有 指定 参数 。 接 下 来 ， 我 们 会 定义 有 参数 的 函数 。 


到 数 定义 的 第 一 行 叫做 函数 头 ， 剩 余 的 部 分 叫做 函数 体 。 范 数 头 必须 以 冒号 结束 ， 回 数 体 必 
须 缩 进 。 按 照 惯 例 ， 一 般 缩 进 4 个 空格 。 画 数 体 可 以 包括 任意 数量 的 语句 。 


NS 


print 语 句 要 输出 的 字符 串 放 在 双 引 号 里 面 。 单 引号 和 双 引 号 作用 是 一 样 的 。 除 了 在 字符 串 中 
也 有 单 引 号 的 冲突 情况 之 外 ， 大 多 数 人 会 使 用 单 引 号 。 


如 果 你 在 Python 交互 模式 中 定义 本 数 ， 解 释 器 会 打印 省 略 号 〈.…) 表明 函数 定义 还 没有 结 
束 。 


>>> def print_lyrics(): 
print "I'm a lumberjack, and I'm okay." 
print 'I sleep all night and I work all day.' 


男 数 定义 的 结束 方式 是 输入 一 个 空 行 〈 当 然 ， 这 在 程序 文件 中 不 是 必须 的 ) 。 
定义 函数 的 同时 也 会 创建 一 个 和 画 数 名 相同 的 变量 名 。 


>>> print print_lyrics 

<function print_lyrics at 0xb7e99e9c> 
>>> print type(print_lyrics) 

<type 'function'> 


print_lyrics 的 值 是 一 个 画 数 对 象 ， 它 的 类 型 是 函数 。 
调用 自 定义 函数 与 调用 内 置 本 数 的 语法 是 一 样 的 : 


>>> print_lyrics() 
I'm a lumberjack, and I'm okay. 
I sleep all night and I work all day. 


函数 定义 好 之 后 ， 就 可 以 在 其 他 函数 中 使 用 。 例 如 ， 为 了 重复 调用 之 前 的 画 数 ， 你 可 以 写 一 
个 repeat_lyrics 函 数 : 


def repeat_lyrics(): 
print_lyrics() 
print_lyrics() 


然后 调用 这 个 画 数 : 


>>> repeat_lyrics() 

I'm a lumberjack, and I'm okay. 

I sleep all night and I work all day. 
I'm a lumberjack, and I'm okay. 

I sleep all night and I work all day. 


现实 中 歌曲 可 不 是 这 样 填词 的 。 
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4.7 定义 与 用 法 
将 前 面 的 代码 片段 组 合 在 一 起 ， 完 整 的 程序 如 下 : 


def print_lyrics(): 
print "I'm a lumberjack, and I'm okay." 
print 'I sleep all night and I work all day.' 


def repeat_lyrics(): 
print_lyrics() 
print_lyrics() 


repeat_lyrics() 


这 个 程序 包含 了 两 个 自 定 义 函 数 : print_lyrics 和 repeat lyrics。 画 数 定义 会 像 其 他 语句 一 样 
执行 ， 但 它 的 作用 仅仅 是 新 建 画 数 。 男 数 体 里 面 的 代码 并 没有 被 执行 ， 直 到 被 调用 时 才 会 执 
行 ， 图 数 定 义 是 没有 输出 的 。 

正如 所 期 望 的 ， 你 必须 在 执行 玉 数 之 前 定义 这 个 画 数 。 换 句 话 说 ， 男 数 在 第 一 次 被 调用 之 前 
就 应 该 定义 好 。 


习题 4.2 将 上 面 程序 的 最 后 一 行 调 到 最 开始 ， 这 样 画 数 调用 就 出 现在 画 数 定义 之 前 。 运 行程 序 
并 观察 出 错 信 息 。 


习题 4.3 将 函数 调 回 底部 ， 将 函数 print_lyrics 定 义 放 在 函数 repeat_lyrics 后 面 ， 这 样 会 产生 什 
么 结果 ? 
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4.8 执行 流程 
为 了 保证 函数 定义 是 在 第 一 次 使 用 之 前 ， 你 就 必须 知道 语句 的 执行 顺序 ， 这 称 为 执行 流程 。 
程序 一 般 从 第 一 条 语句 开始 执行 ， 从 上 到 下 依次 顺序 执行 。 
轴 数 定义 并 不 改变 程序 的 执行 顺序 ， 但 要 记 住 ， 函 数 只 有 被 调用 的 时 才 会 被 执行 。 


图 数 调 用 像 是 是 执行 流程 中 的 一 个 迁 回 。 当 遇 到 要 调用 的 函数 时 ， 不 会 接着 去 执行 下 一 句 ， 
而 是 跳 到 函数 体 ， 执 行 完 范 数 体 里 的 语句 ， 然 后 回 到 刚才 跳出 的 地 方 继续 执行 。 

当 你 掌握 函数 之 间 的 调用 ， 这 就 会 变 得 很 往 单 。 在 一 个 图 数 中 ， 程 序 可 能 需要 执行 另 一 个 
函数 的 语句 。 还 有 ， 在 定义 新 函数 时 ， 程 序 还 可 能 需要 执行 另 一 个 画 数 ! 

程序 里 跳 来 跳 去 ， 这 说 明了 什么 ? 阅读 程序 有 时 候 没 必 要 从 头 看 到 尾 。 有 时 候 按照 执行 流程 
会 让 你 更 好 地 读 懂 程序 。 
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4.9 形式 参数 与 实际 人 参数 
我 们 之 前 见 到 的 内 置 画 数 需要 传 入 参数 。 例 如， 调用 math.sin 函 数 需要 传 入 一 个 数值 作为 参 
数 。 有 些 画 数 不 止 有 一 个 参数 : math.pow 画 数 需要 传 入 两 个 参数 : 底数 和 指数 。 
在 函数 内 部 ， 如 果 变 量 作为 参数 传人 ， 那 么 这 种 参数 叫做 形式 参数 (简称 形 参 ) 。 下 面 的 例 


子 是 一 个 自 定义 郴 数 传 人 了 一 个 实际 参数 (简称 实 参 ) 


def print_twice(bruce): 
print bruce 
print bruce 


这 个 函数 将 一 个 叫做 bruce 的 实 参 传递 进去 。 当 该 函数 被 调用 时 ， 画 数 会 打印 两 次 传人 的 参数 
值 。 


这 个 画 数 适用 任何 类 型 的 值 。 


>>> print_twice('Spam') 
Spam 

Spam 

>>> print_twice(17) 

17 

17 

>>> print_twice(math.pi) 
3.14159265359 
3.14159265359 


这 种 参数 传人 方式 适用 于 内 置 画 数 与 自 定义 本 数 。 任 何 类 型 的 表达 式 都 可 以 作为 函数 
print_ twice 的 参数 。 


>>> print_twice( "Spam '*4) 

Spam Spam Spam Spam 

Spam Spam Spam Spam 

>>> print_twice(math.cos(math.pi)) 
Su bl0) 

-1.0 


参数 的 值 在 酌 ld J 因此 ， 上 面 的 例子 中 表达 式 'Spam “4 和 
math.cos(math.pi) 只 被 计算 了 一 


你 还 可 以 使 用 变量 作为 参数 : 


>> michael = 'Eric, the half a bee.' 
>>> print_twice(michael) 

Eric, the half a bee. 

Eric, the half a bee. 


变量 (如 michael) 作为 形 参 与 实 参 (如 bruce) 不 同 。 函 数 的 形式 参数 是 什么 类 型 的 值 都 可 
以 被 传 入 ， 而 实 参 的 值 是 确定 的 ，print_twice 函 数 的 返回 值 就 是 参数 bruce 本 身 。 


4.10 带 返 回 值 的 函数 和 空隙 数 


我 们 使 用 过 的 有 些 函 数 (如 math 琅 数 ) 有 返回 值 。 由 于 没有 更 好 的 叫 法 ， 我 称 之 为 有 返回 值 
的 画 数 。 其 他 的 一 些 画 数 比 如 print_twice， 执 行 任务 但 不 返回 值 ， 这 种 称 为 空 冰 数 。 


当 调 用 有 返回 值 的 函数 时 ， 大 部 分 时 候 你 想 要 利用 返回 值 ， 例 如 ， 将 它 赋值 给 一 个 变量 ， 也 
可 以 作为 表达 式 的 一 部 分 : 


x = math.cos(radians ) 
golden = (math.sqrt(5) + 1) / 2 


在 交互 模式 中 调用 画 数 时 ，Python 会 显示 结果 。 


>>> math.sqrt(5) 
2.2360679774997898 


在 程序 文件 中 ， 如 果 不 把 有 返回 值 的 函数 的 返回 值 保 存在 变量 里 的 话 ， 返 回 值 就 会 去 失 。 


math. sqrt(5) 


空 图 数 也 许 会 在 屏幕 上 输出 什么 或 者 有 其 它 的 用 途 ， 但 其 本 身 没有 返回 值 。 如 果 你 试 着 将 结 
果 赋 值 给 一 个 变量 ， 就 会 得 到 一 个 特殊 的 值 None。 


>>> result = print_twice('Bing') 
Bing 

Bing 

>>> print result 

None 


None 值 与 字符 串 'None' 是 不 一 样 的 。 它 是 一 种 特殊 的 值 并 且 拥 有 自己 的 类 型 。 


>>> print type(None ) 
<type 'NoneType'> 


使 用 return 语 句 从 责 数 中 返回 结果 。 例 如 ， 创 建 一 个 简单 的 加 数 addtwo， 将 两 个 数 相 加 并 且 返 
回 一 个 值 。 


def addtwo(a, b): 
added = a + b 
return added 

x = addtwo(3, 5) 


print x 


在 文件 中 执行 程序 时 ，print 语 句 会 打印 出 8。addtwo 画 数 被 调用 时 ， 传 人 3 和 5 这 两 个 参数 。 带 
有 形 参 a 和 b 的 本 数 ， 分 别 是 3 和 5。 这 个 函数 将 两 个 数 相 加 ， 然 后 将 结果 赋值 给 局 部 变量 
added， 最 后 使 用 return 语 句 将 计算 结果 赋值 给 Xx 并 打印 出 来 。 


4.11 为 什么 需要 酌 数 ? 


如 果 不 太 明白 为 什么 需要 花费 精力 把 程序 分 成 多 个 画 数 ， 请 看 如 下 理由 : 
。 定义 新 函数 可 以 让 你 有 机 会 为 一 组 语句 命名 ， 使 得 程序 易于 阅读 、 理 解 和 调试 。 


函数 可 以 消除 元 余 代 码 ， 0 如 果 想 修改 函数 ， 只 需要 改变 一 处 即 可 。 
. a 一 调试 ， 最 后 再 整合 在 一 起 。 
。 精心 设计 的 函 eb 一 旦 创建 并 调试 后 ， 你 就 可 以 重复 使 用 它 。 


本 书 其 余部 分 会 使 用 画 数 定义 来 解释 一 个 概念 。 创 建 并 正确 使 用 范 数 的 技巧 之 一 是 捕捉 到 一 
个 想法 ， 例 如 ,“ 找 出 列表 中 的 最 小 值 "。 随 后 我 们 会 介绍 min 画 数 的 代码 ， 它 将 列表 的 值 作为 
参数 输入 ， 然 后 返回 其 中 的 最 小 值 。 


4.12 调试 


制 表 符 和 空格 通常 不 可 见 ， 导 致 不 易 调试 ， 因 此 最 好 选择 一 个 能 够 自动 缩 进 的 文本 编辑 器 。 


另外 ， 运 行程 序 之 前 不 要 忘记 保存 。 有 一 些 开发 环境 可 以 自动 保存 ， 而 有 一 些 不 行 。 未 保存 
的 情况 下 运行 的 程序 和 文本 编辑 器 的 程序 不 一 样 。 


如 果 你 重复 运行 相同 错误 的 程序 ， 那 么 会 调试 很 久 。 


确保 运行 的 代码 是 文本 编辑 器 中 你 所 看 到 的 代码 。 如 果 不 确 定 ， 你 可 以 在 程序 开头 加 入 print 
'hello' 这 样 的 代码 再 运行 。 如 果 没 有 看 到 hello 输 出 ， 那 么 就 没有 正确 运行 程序 。 


4.13 术语 

算法 : 解决 一 类 问题 的 一 般 过 程 。 

实际 参数 : 男 数 被 调用 时 传 入 的 值 。 豆 数 中 这 个 值 会 被 赋予 相应 的 参数 。 

图 数 体 : 函数 定义 中 的 一 组 语句 序列 。 

组 合 : 一 个 表达 式 作为 另 一 个 表达 式 的 一 部 分 ， 或 者 一 条 语句 作为 另 一 条 语句 的 一 部 分 。 
确定 性 : 在 既定 输入 下 ， 程 序 每 次 运行 都 一 样 并 返回 相同 的 结果 。 

点 标记 : 在 另 一 个 模块 中 调用 函数 时 ， 需 要 指定 模块 名 和 男 数 名 ， 用 句号 隔 开 。 
执行 流程 : 程序 运行 时 的 语句 执行 顺序 。 

带 返 回 值 的 函数 : 能 够 返回 一 个 值 的 汞 数 。 

到 数 : 执行 一 些 有 用 操作 的 命名 语句 序列 。 画 数 不 一 定 有 参数 ， 也 不 一 定 返回 结果 。 
到 数 调 用 : 执行 画 数 的 语句 ， 包 括 本 数 名 和 参数 列表 。 

到 数 定义 : 创建 新 函数 的 语句 ， 需 要 指定 名 称 、 参 数 和 执行 语句 。 

到 数 对 象 : 通过 加 数 定义 创建 的 值 。 图 数 名 就 是 参 引 函 数 对 象 的 变量 。 


到 到 加 到 


函数 头 部 : 函数 定义 的 第 一 行 。 

import 语 句 : 读 取 模块 文件 并 创建 模块 对 象 的 语句 。 

模块 对 象 : import 语 句 创 建 的 一 个 值 ， 用 以 提供 模块 中 定义 的 数据 和 代码 。 

形式 参数 : 函数 中 用 来 参 引 传人 参数 的 变量 名 。 

伪 随 机 数 : 看 起 来 像 随机 数 的 一 串 数 值 ， 不 过 这 是 由 确定 的 程序 产生 的 。 

返回 值 : 函数 的 结果 。 如 果 一 个 函数 调用 作为 表达 式 来 使 用 ， 那 么 返回 值 就 是 这 个 表达 式 的 


4.14 练习 


习题 4.4 Python 中 "def "保留 关键 字 的 作用 是 什么 ? 
al) 它 是 一 个 倡 语 , “下 面 的 代码 太 酷 了 ” 

b) 它 表 示 画 数 的 开始 

c) 它 表 示 接 下 来 代码 的 缩 进 部 分 会 被 存储 

d) b 和 c 都 正确 

e) 以 上 都 不 正确 


习题 4.5 下 面 的 Python 语句 会 打印 出 什么 ? 


def fred() : 
print "Zap" 


def jane() : 
print "ABC" 


jane() 

fred() 

jane() 
a) Zap ABC jane fred jane 
b) Zap ABC Zap 
c) ABC Zap jane 


d) ABC Zap ABC 


e) Zap Zap Zap 


习题 4.6 重 写 之 前 的 工资 计算 程序 ， 加 班 时 间 的 工资 按 原 工资 的 150% 计 算 。 创 建 一 个 
computepay 画 数 ， 包 含 两 个 参数 hours 和 rate。 


Enter Hours: 45 
Enter Rate: 10 
Pay: 475.0 


习题 4.7 重 写 之 前 的 分 数 计 算 程序 ， 使 用 computegrade 画 数 ，score 作 为 参数 ， 返 回 一 个 评分 
等 级 的 字符 串 。 


Score Grade 


> 0.9 A 
> 0.8 B 
> 0.7 C 
> 0.6 D 
<= 0.6 F 


Program Execution: 


Enter Score: 0.95 
A 


Enter Score: perfect 
Bad Score 


Enter Score: 10.0 
Bad Score 


Enter score: 0.75 
(© 


Enter score: 0.5 
F 


重复 运行 该 程序 ， 每 次 输入 不 同 的 值 来 测试 输出 结果 。 


第 5 章 友 代 


-E 
5.1 更 新 变量 
赋值 语句 的 常见 模式 是 对 变量 进行 更 新 ， 变 量 的 新 值 依 赖 于 旧 信 。 


x = x+1 


这 条 语句 的 作用 是 : 得 到 x 的 当前 值 ， 加 一 ， 然 后 将 相 加 结果 作为 新 值 赋予 x。 


如 果 更 新 一 个 不 存在 的 变量 ， 那 么 会 出 错 。 这 是 因为 Python 在 给 x 赋 值 之 前 ， 首 先 计算 等 号 右 
Ee 


>>> X= Xt] 


NameError: name 'x' is not defined 


在 更 新 变量 之 前 ， 必 须 初始 化 ， 通 常 使 用 简单 的 赋值 语句 : 


>>> X= 0 


>>> Xx = Xx+1 


通过 加 一 操作 更 新 变量 称 为 增 量 更 新 ， 减 一 操作 称 为 减 量 更 新 。 


5.2 while 语 名 


计算 机 经 常用 于 执行 一 些 重复 性 的 任务 。 对 计算 机 来 说 ， 执 行 相同 或 相似 的 任务 而 不 出 错 ， 
这 很 简单 ， 但 人 就 做 不 好 。 和 迭代 很 常见 ，Python 提 供 了 一 些 功 能 语句 ， 使 这 类 任务 变 得 更 加 
简单 。 

Python 的 一 种 迭代 形式 是 while 语 句 。 下 面 是 一 个 简单 的 例子 ， 从 5 开始 倒数 ， 然 后 打印 

出 “Blastoff!”。 


N=s%S 

while n > 0: 
print n 
n= n-1 


print 'Blastoff!' 


几乎 可 以 像 读 英文 一 样 ， 读 懂 这 条 while 语 句 。 它 的 作用 是 : 当 n 大 于 0 时 ， 显示 n 的 值 ， 然 后 
对 n 减 1。 当 n 等 于 0 时 ， 结 束 while 语 句 ， 显示 “blastoffl”。 


严格 说 ， while 语 句 的 执行 流程 如 下 : 


1. 计算 条 件 表 达 式 的 值 ， 判 断 是 True 或 False。 
2， 如 果 为 False， 结 束 while 语 名 并 执行 下 一 条 语句 。 
3.， 如果 为 True， 执 行 while 中 的 语句 体 ， 然 后 返回 步 又 1。 


此 类 执行 流程 称 为 循环 。 执 行 到 第 三 步 又 返回 到 顶部 。 每 执行 一 次 循环 体 ， 称 为 一 次 迭代 。 
上 面 的 循环 ， 我 们 可 以 说 “ 它 进 行 了 五 次 迭代 ”， 表 示 循 环 体 被 执行 了 五 次 。 


循环 体会 改变 一 个 或 多 个 变量 的 值 。 因 此 当 条 件 不 满足 时 ， 循 环 结束 。 有 一 种 变量 在 每 次 循 
环 执行 时 其 值 都 会 变化 ， 并 控制 循环 什么 时 候 结束 ， 这 种 变量 称 为 迭代 变量 。 如 果 没 有 迭代 
变量 ， 循 环 就 会 永远 执行 下 去 ， 导 致 无 限 循环 。 


pA 
5.3 无 限 循环 
对 于 程序 员 来 说 ， 无 限 循环 的 有 趣 实 例 就 是 洗 发 水 的 说 明 书 ，“ 泡 沫 ， 冲 洗 ， 重 复 ”。 这 就 是 一 
个 无 限 循环 ， 没 有 和 迭代 变量 来 表明 什么 时 候 结束 这 个 循环 。 


上 面 的 倒数 例子 中 ， 循 环 的 确 是 结束 了 。 因 为 n 值 的 个 数 是 有 限 的 ， 我 们 可 以 看 到 n 值 随 着 循 
环 的 执行 不 断 减 小 ， 最 终 变 为 0。 有 些 情 况 的 循环 明显 是 无 限 的 ， 这 是 因为 它 根本 就 没有 和 迭代 
变量 。 


5.4 “无 限 循环 ”与 break 语 句 


有 时 候 循 环 运 行 到 一 半 时 ， 你 还 没 意 识 到 这 时 候 该 结束 循环 了 。 在 这 种 情况 下 ， 你 可 以 写 一 
个 无 限 的 循环 ， 然 后 使 用 break 语 句 跳出 循环 。 


下 面 的 代码 明显 是 一 个 无 限 循 环 ，while 语 名 的 逻辑 表达 式 是 常量 True : 


n = 10 

while True : 
print n, 
n= = 


print "Donel， 


如 果 犯 了 这 个 错误 并 且 运 行 这 个 代码 ， 你 会 很 快 学 会 如 何 停止 一 个 正在 运行 的 Python 进 程 ， 
或 者 找到 计算 机 的 关机 按钮 。 由 于 循环 项 部 的 逻辑 表达 式 是 常量 True， 所 以 循环 条 件 一 直 都 
满足 ， 这 个 程序 会 一 直 运 行 下 去 ， 直 到 计算 机 没 电 。 


虽然 这 是 一 个 不 正常 的 无 限 循环 ， 我 们 还 是 可 以 使 用 这 种 模式 来 建立 有 用 的 循环 。 只 要 将 
break 语 句 放 进 循环 体 ， 明 确 退 出 条 件 及 行为 。 当 达到 结束 条 件 时 ， 就 可 以 结束 循环 。 


举例 来 说 ， 如 果 想 要 用 户 直 到 输入 done 时 结束 的 话 ， 代 码 可 以 这 样 写 : 


while True : 
line = raw_input('> ') 
If line == 'done': 
break 
print line 
print 'Done!' 


这 个 循环 的 条 件 是 True 且 不 会 变 ， 因 此 循环 会 一 直 执 行 下 去 ， 直 到 触发 break 语 句 。 


每 次 执行 这 个 循环 ， 它 都 会 提示 用 户 一 个 尖 括 号 。 如 果 用 户 输入 done， 那 么 break 语 句 就 会 结 
束 这 个 循环 。 否 则 ， 这 个 程序 会 一 直 提 示 用 户 进 行 输入 ， 回 到 顶部 继续 执行 。 下 面 是 一 个 程 
序 运行 的 结果 演示 : 


> hello there 
hello there 

> finished 
finished 

> done 

Done! 


while 语 句 的 这 种 写法 很 常见 。 你 可 以 在 循环 中 的 任何 位 置 检查 条 件 (不 仅 局 限于 顶部 ) ， 并 
且 可 以 主动 定义 停止 条 件 〈 当 发 生 什 么 就 停止 ) ， 而 不 是 被 动 等 待 判断 (一 直 运 行 站 到 发 生 
什么 ) 。 


5.5 使 用 continue 语 句 结 束 和 迭代 
有 时 在 循环 的 迭代 中 ， 你 想 要 结束 当前 迭代 ， 立 刻 进行 下 一 轮 迭 代 。 在 这 种 情况 下 ， 使 用 
continue 话 句 跳 入 下 一 轮 迭 代 ， 无 需 完 成 当前 迭代 的 循环 体 。 


下 面 的 循环 例子 不 断 打印 输入 值 ， 直 到 用 户 输 入 “done” 才 会 结束 。 但 是 ，# 号 开头 的 输入 不 会 
被 打印 出 来 (这 有 点 像 Python 的 注释 ) 。 


运行 一 下 这 个 加 入 了 continue 语 句 的 新 程序 。 


while True : 
line = raw_input('> ') 


if line[0] == '#'" : 
continue 

if line == 'done': 
break 


print line 
print 'Done!' 


除了 # 号 开头 的 行 ， 其 他 所 有 的 行 都 被 打印 出 来 。 当 continue 语 句 被 执行 ， 当 前 迭代 会 结束 ， 
跳 到 while 语 名 的 开头 执行 下 一 轮 循环 ， 这 样 也 就 跳 过 了 print 语 句 。 


5.6 使 用 for 语 句 定义 循环 


有 时 候 我 们 需要 要 通 历 一 组 东西 ， 例 如 ， 单 词 列 表 ， 文 件 的 每 一 行 或 是 一 组 数字 。 通 万 一 组 
东西 ， 可 以 用 for 语 句 来 构造 循环 。 因 为 wile 语 句 是 简单 地 进行 循环 ， 直 到 条 件 变 为 False， 我 
们 称 其 为 无 限 循 环 。 与 之 不 同 的 是 ，for 语 句 是 对 已 知 的 数据 项 集合 进行 循环 ， 因 此 它 的 迭代 
次 数 取 决 于 数据 项 的 个 数 。 


for 循 环 和 while 循 环 的 语法 相似 ， 下 面 是 一 个 for 语 句 和 循环 体 代码 示例 : 


friends = ['Joseph', 'Glenn', 'Sally'] 
for friend in friends: 

print 'Happy New Year:', friend 
print 'Done!' 


在 Python 语法 中 ，friends 变 量 是 包含 三 个 字符 串 的 列表 1。for 循 环 通 历 整个 列表 ， 依 次 打印 每 
个 字符 串 这 三 个 字符 ， 输 出 结果 如 下 所 示 : 


Happy New Year: Joseph 
Happy New Year: Glenn 
Happy New Year: Sally 
Done ! 


如 果 用 英语 来 解释 这 个 for 循 环 ， 就 不 如 while 循 环 的 解释 那么 直接 。 你 可 以 把 它 当 做 一 个 朋友 
名 单 ， 那 么 这 段 代 码 的 作用 是 : 对 friends 集 合 中 的 每 个 朋友 执行 for 循 环 体 。 
观察 这 个 for 循 环 ，for 和 in 是 Python 的 保留 关键 字 ，friend 和 friends 是 变量 。 

for friend in friends: 


print 'Happy New Year , friend 


具体 来 说 ，friend 是 for 循 环 的 迭代 变量 。 变 量 friend 的 值 在 每 次 迭代 时 都 会 改变 ， 并 控制 for 循 
环 什么 时 候 结束 。 这 个 迭代 变量 取得 friends 中 存储 的 三 个 字符 串 。 


5.7 循环 模式 


我 们 经 常 使 用 for 循 环 或 while 循 环 来 瑶 历 列表 或 文件 的 内 容 ， 还 会 通过 浏览 来 寻找 一 组 数值 中 
的 最 大 值 或 最 小 值 。 


此 类 循环 的 构造 方法 如 下 : 
。 循环 开始 之 前 初始 化 一 个 或 多 个 变量 。 


。 在 循环 体 中 对 每 个 数据 项 进行 计算 ， 这 样 可 能 会 改变 循环 体 中 变量 的 值 。 
。 循环 结束 时 查看 最 终 变 量 。 


我 们 会 用 一 组 数字 来 展示 这 些 循 环 模式 的 理念 和 构造 方法 。 


5.7.1 统计 与 求 和 循环 
举例 来 说 ， 为 了 统计 一 个 列表 的 数据 项 个 数 ， for 循 环 编 写 如 下 : 


count = 0 

for itervar in [3, 41, 12, 9, 74, 15]: 
count = count + 1 

print "Count: ', count 


循环 开始 之 前 将 变量 count 的 值 设 为 0， 然 后 用 一 个 for 循 环 来 通 万 数值 列表 。 和 迭代 变量 命名 为 
itervar。 虽然 我 们 并 不 在 循环 体 中 使 用 它 ， 但 它 控制 着 循环 ， 让 循环 体 为 每 一 个 列表 值 执行 一 
次 。 


在 循环 体 中 ， 列 表 的 每 个 值 都 会 导致 count 值 加 一 。 随 着 循环 的 执行 ，count 值 就 是 “当前 "所 看 
到 的 。 

循环 一 旦 结束 ，count 值 就 等 于 列表 中 数值 的 个 数 。 在 循环 最 后 ， 总 数 “ 落 入 我 们 手中 ”。 通 过 
构造 这 个 循环 ， 在 循环 结束 时 我 们 得 到 了 想 要 的 。 


另 一 个 相似 的 循环 求 出 一 组 数值 的 总 和 : 


total = 0 

for itervar in [3, 41, 12, 9, 74, 15]: 
total = total + itervar 

print 'Total: ', total 


在 这 个 循环 中 ， 我 们 用 到 了 和 迭代 变量 。 不 是 之 前 循环 中 为 count 变 量 简单 加 一 ， 而 是 在 每 次 循 
环 中 加 上 实际 的 数字 (如 3、41、12 等 ) 。total 变 量 的 作用 是 求 出 目前 的 累计 值 。 在 循环 开始 
之 前 ， 由 于 还 没有 遇 到 任何 值 ， 所 以 total 值 是 0。 循 环 中 会 累加 ，total 最 终 值 是 所 有 数字 的 总 
和 。 


随 着 循环 的 进行 ，total 累 积 了 列表 各 项 的 和 。 这 桩 的 变量 有 时 候 被 称 为 累加 器 


(accumulator) 。 


不 管 统计 循环 还 是 求 和 循环 ， 在 实际 使 用 中 都 不 是 很 有 用 。 这 是 因为 Python 提 供 了 内 置 琅 数 
len() 和 sum()， 分 别 计算 列表 元 素 的 个 数 和 列表 各 项 的 总 和 。 


5.7.2 最 大 值 与 最 小 值 循环 
找 出 列表 或 者 序列 中 的 最 大 值 ， 构 造 如 下 循环 : 


largest = None 
print 'Before:', largest 
for itervar in [3, 41, 12, 9, 74, 15]: 
if largest is None or itervar > largest : 
largest = itervar 


print 'Loop:', itervar, largest 
print 'Largest:', largest 
程序 执行 结果 如 下 : 


Before: None 
Loop: 3 3 

Loop: 41 41 
Loop: 12 41 
Loop: 9 41 

Loop: 74 74 
Loop: 15 74 
Largest: 74 


largest 变 量 是 “目前 我 们 看 到 的 最 大 值 ”， 在 循环 开始 之 前 ， 将 largest 设 为 常量 None。None 是 
一 个 特殊 的 常量 ， 表 示 变 量 为 " 空 ”。 


在 循环 开始 之 前 ， 我 们 没有 遇 到 任何 值 ， 所 以 largest 值 为 None。 当 循环 开始 执行 ， 如 果 
largest 为 None， 则 将 第 一 个 值 作为 目前 看 到 的 最 大 值 。 可 以 看 到 ， 第 一 轮 迭 代 中 itervar 的 值 
是 3，largest 的 值 是 None， 所 以 立即 将 largest 的 值 变 为 3。 


第 一 次 迭代 之 后 ， 最 大 值 就 不 是 None 了 。 复 合 逻 辑 表达 式 的 第 二 部 分 设置 了 触发 器 ， 检 查 
itervar 值 是 否 大 于 largest 值 。 如 果 当 前 值 大 于 largest 值 ， 就 会 将 更 大 的 新 值 赋 予 largest。 从 程 
序 输出 可 以 看 出 ，largest 值 从 3 变 为 41， 然 后 变 为 74。 


循环 结束 后 通 厉 了 所 有 的 值 ，largest 值 已 经 是 整个 列表 中 的 最 大 值 了 。 


计算 最 小 值 的 代码 仅 需要 做 很 小 改动 : 


smallest = None 
print 'Before:', smallest 
for itervar in [3, 41, 12, 9, 74, 15]: 
if smallest is None or itervar < smallest: 
smallest = itervar 
print 'Loop:', itervar, smallest 
print 'Smallest:', smallest 


同样 的 ，smallest 值 在 循环 前 、 循 环 中 与 循环 后 都 是 “目前 看 到 的 最 小 值 "。 循 环 结束 后 ， 
smallest 值 就 是 整个 列表 的 最 小 值 。 


统计 和 求 和 同样 有 Python 内 置 画 数 支持 ， 上 比如 ， 使 用 max() 范 数 和 min() 画 数 可 以 不 用 到 循环 
代码 。 


下 面 是 Python 内 置 画 数 min() 的 简化 版 代码 : 


def min(values): 
smallest = None 
for value in values: 
if smallest is None or value < smallest: 
smallest = value 
return smallest 


在 这 段 代 码 中 ， 我 们 移 除 了 所 有 的 print 语 句 ， 与 Python 内 置 函 数 min() 基 本 等 价 。 


5.8 调试 


当 程 序 越 写 越 状 ， 你 就 会 发 现 需要 花费 更 多 的 时 间 来 调试 。 代 码 越 多 意味 着 犯错 的 机 会 越 

大 ， 人 隐藏 的 错误 也 就 越 多 。 

相反 ， 试 着 将 问题 分 为 两 部 分 。 在 程序 的 中 间 位 置 ， 寻 找 一 处 可 验证 的 代码 ， 插 入 一 个 print 
语句 〈 或 者 其 它 可 验证 效果 的 语句 ) ， 然 后 运行 程序 。 

如 果 中 间 点 检查 出 错 ， 那 么 问题 肯定 出 在 程序 的 前 半 部 分 。 如 果 中 间 点 检查 没 错 ， 问 题 就 出 
在 程序 的 后 半 部 分 。 

每 执行 一 次 这 样 的 检查 ， 你 就 会 把 代码 范围 缩减 一 半 。 如 果 代 码 少 于 100 行 ， 进 行 6 次 之 后 ， 
就 只 剩 下 一 两 行 ， 理 论 上 至 少 是 这 样 。 

实际 上 ,“ 程 序 的 中 间 位 置 并 不 是 很 明星， 也 可 能 没 法 进行 检查 。 统 计 行 数 然 后 除 以 2， 找 到 
精确 的 中 间 位 置 代码 行 ， 这 种 做 法 没有 意义 。 一 般 做 法 是 ， 考 虑 程序 中 容易 出 现 错误 的 地 

方 ， 进 行 检 查 。 选 择 你 认为 极 有 可 能 会 出 错 的 位 置 前 后 ， 设 置 检查 点 。 


5.9 术语 
累加 器 : 循环 语句 中 用 来 累积 结果 的 变量 。 


计数 器 : 循环 语句 中 用 来 计算 发 生 次 数 的 变量 。 计 数 器 初始 化 为 0， 每 次 需要 计数 时 ， 增 加 它 
的 值 。 


减 量 : 减少 变量 值 的 更 新 。 

初始 化 : 为 随后 会 更 新 的 变量 赋予 初始 值 的 语句 。 

增 量 : 增加 变量 值 的 更 新 (通常 是 加 一 ) 。 

无 限 循 环 : 终止 条 件 无 法 达到 或 者 没有 终止 条 件 的 循环 。 
和 迭代 : 通过 递归 酌 数 调用 或 者 循环 来 重复 执行 一 组 语句 。 


5.10 练习 


习题 5.1 编写 一 个 程序 ， 重 复读 取 数 据 ， 直 到 用 户 输 入 “done”。 一 旦 输入 “done”， 打 印 总 和 、 
个 数 与 平均 值 。 如 果 用 户 输入 的 不 是 数字 ， 使 用 try 和 except 捕 获 异常 ， 打 印 错 误 信 息 ， 然 后 
跳 过 继续 执行 循环 。 


习题 5.2 编写 一 个 程序 ， 提 示 用 户 输入 一 组 数字 ， 输 出 最 大 值 和 最 小 值 ， 不 要 求 平均 值 。 


6.1 字符 串 是 字符 的 序列 
字符 串 是 若干 字符 的 序列 。 你 可 以 用 方 括号 运算 符 逐 一 访问 每 个 字符 : 


>>> fruit = 'banana' 
>>> letter = fruit[1] 


第 二 条 语句 从 fruit 变 量 中 提取 索引 位 置 为 1 的 字符 ， 并 把 它 赋 予 letter 变 量 。 
方 括号 里 的 表达 式 称 为 索引 。 索 引 可 以 指向 字符 序列 中 你 想 要 的 字符 ， 作 用 如 其 名 。 


但 是 这 并 


ea 
加 
寄 
洋 
痢 
地 
Na 
六 
酒 


>>> print letter 
a 


大 多 数 人 认为 banana' 的 第 一 个 字符 是 b， 而 不 是 a。 但 在 Python 中 ， 索 引 是 从 字符 串 头 部 算 起 
的 一 个 偏 移 量 ， 第 一 个 字母 的 偏 移 量 为 0。 


>>> letter = fruit[0] 
>>> print letter 
b 


因此 ，b 是 'banana' 的 第 需 个 字母 ，a 是 第 一 个 字母 ，n 是 第 二 个 字母 。 


b | a 国医 i 
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索引 可 以 是 任何 表达 式 ， 包 括 变量 与 运算 符 在 内 。 但 是 ， 索 引 的 值 必须 是 整数 ， 否 则 会 得 至 
如 下 错误 信息 


L 一 


>>> letter = fruit[1.5] 
TypeError: string indices must be integers 


6.2 使 用 len 函 数 得 到 字符 串 的 长 度 


len 是 内 和 置 画 数 ， 返 回 字符 串 的 字符 数 : 


>>> fruit = 'banana' 
>>> len(fruit) 
6 


为 了 得 到 字符 串 中 的 最 后 一 个 字母 ， 你 可 能 会 这 祥 做 : 


>>> length = len(fruit) 
>>> last = fruit[length] 
IndexError: string index out of range 


IndexError 的 错误 依据 是 字符 串 'banana’ 没 有 与 素 引 6 对 应 的 字母 。 既 然 是 从 需 开 始 算 起 ， 六 
个 字母 的 编号 就 是 0 到 5。 为 了 得 到 最 后 一 个 字母 ， 对 length 值 减 1。 


>>> last = fruit[length-1] 
>>> print last 
a 


另 一 种 方法 是 使 用 负 素 引 ， 从 字符 串 结 尾 倒 过 来 计算 。 表 达 式 fruit[-1] 表 示 最 后 一 个 字母 ， 
fruit[-2] 是 倒数 第 二 个 字母 ， 以 此 类 推 。 


6.3 通过 循环 通 历 字符 串 


按照 一 次 一 个 字符 的 方式 义理 一 个 字符 串 需要 花费 大 量 的 计算 。 
个 选择 每 个 字符 ， 对 其 进行 操作 ， 然 后 继续 下 一 个 ， 直 到 结束 。 这 种 义理 模式 称 为 
(traversal) 。 通 历 的 一 种 写法 是 使 用 while 循 环 : 


index = 0 

while index < len(fruit): 
letter = fruit[index] 
print letter 
index = index + 1 


这 个 循环 通 历 了 整个 字符 串 ， 每 行 显示 一 个 字母 。 循环 条 件 是 index < len(fruit) ， 当 index 
等 于 字符 串 长 度 时 ， 循 环 条 件 为 假 ， 那 么 语句 体 就 不 会 被 执行 。 字 符 串 最 后 一 个 字符 的 索引 


是 len(fruit)-1 。 


习题 6.1 编写 一 个 while 循 环 ， 从 字符 串 的 最 后 一 个 字符 开始 ， 反 向 逐一 处 理 ， 直 到 字符 串 的 
第 一 个 字符 ， 一 行 显示 一 个 字母 。 


通 万 的 另 一 种 写法 是 用 for 循 环 : 


for char in fruit: 
print char 


每 一 次 循环 中 字符 串 的 下 一 个 字符 赋值 绘 char 变量 。 继 续 循环 下 去 ， 直 到 没有 字符 了 。 


6.4 字符 串 分 割 
字符 串 的 一 个 片段 称 为 切片 ， 字 符 切片 与 字符 选择 的 方法 相似 : 


>>> s = 'Monty Python' 
>>> print s[0:5] 

Monty 

>>> print s[6:12] 
Python 


运算 符 [n:m] 返回 字符 串 从 第 n 到 第 m 之 间 的 字符 ， 包 括 第 一 个 字符 ， 但 不 包括 最 后 一 个 字符 。 


如 果 忽 略 第 一 个 索引 值 (冒号 之 前 )， 切 片 就 从 字符 串 第 一 个 字符 开始 计算 。 如 果 忽 略 第 二 个 索 
引 值 ， 切 片 就 计算 到 最 后 一 个 字符 : 


>>> fruit = 'banana' 
>>> fruit[:3] 

'ban' 

>>> fruit[3:] 

'ana! 


如 果 第 一 个 索引 值 大 于 第 二 个 索引 值 导 致 空 字符 串 ， 只 会 输出 两 个 引号 : 


>>> fruit = 'banana' 
>>> fruit[3:3] 


空 字符 串 不 包含 字符 ， 其 长 度 为 0。 除 此 之 外 ， 它 和 其 它 字 符 串 没 有 差别 。 


习题 6.2 假设 fruit 是 一 个 字符 串 ， 那 么 fruit[:] 表 示 什 么 ? 


6.5 字符 串 是 不 可 变 的 


在 赋值 语句 的 左边 使 用 [运算 符 ， 党 试 改变 字符 串 中 的 字符 。 举 例如 下 : 


>>> greeting = 'Hello，Wwor1dl!， 
>>> greeting[0] = "J" 


TypeError: object does not support item assignment 


这 个 例子 的 对 象 是 字符 串 ， 数 据 项 就 是 你 想 要 赋值 的 字符 。 现 在 ， 一 个 对 象 相当 于 一 个 值 ， 
等 下 会 修正 这 个 定义 。 数 据 项 是 序列 中 的 一 个 值 。 


出 错 原 因 在 于 字符 串 是 不 可 改变 的 。 这 意味 着 ， 你 不 能 改变 已 经 存在 的 字符 串 。 最 好 的 办 法 
是 在 原 字符 串 基础 上 新 建 一 个 字符 串 。 


>>> greeting = 'Hello，Wwor1dl!， 

>>> new_greeting = 'J' + greeting[1:] 
>>> print new greeting 

Jello, world! 


这 个 例子 将 新 的 首 字 母 与 greeting 的 切片 连接 在 一 起 。 这 不 会 对 原先 的 字符 串 造 成 影响 。 


s 、 
6.6 循环 与 统计 
下 面 的 程序 统计 了 字母 9 在 字符 串 中 出 现 的 次 数 : 


word = 'banana' 
count = 0 
for letter in word: 
If letter == 'a': 
count = count + 1 
print count 


这 个 程序 演示 了 另 一 种 计算 模式 ， 称 为 计数 器 。 变 量 count 初 始 值 为 0， 每 当 发 现 一 个 a， 
count 值 就 加 一 。 当 循环 停止 时 ，count 就 得 到 了 结果 ， 即 a 出 现 的 总 次 数 。 


习题 6.3 定义 一 个 count 辑 数 并 封装 这 段 代码 ， 对 其 进行 通用 化 改造 ， 能 够 接收 字符 串 和 字母 
作为 参数 。 


6.7 in 运 算 符 


单词 in 是 一 个 布尔 运算 符 ， 对 两 个 字符 串 进 行 比较 ， 如 果 第 一 个 字符 串 是 第 二 个 字符 串 的 子 
串 ， 则 返回 True。 


>>> 'a' in 'banana' 
True 
>>> 'seed' in "banana' 


False 


6.8 字符 串 比 较 
比较 运算 符 适 用 于 字符 串 。 如 何 判断 两 个 字符 串 等 价 : 


if word == "banana ' : 
print "AL1L right, bananas.' 


其 它 比 较 运 算 符 适用 于 字母 排序 : 


If word < 'banana': 


print 'Your word,' + word + ', comes before banana.' 
elif word > 'banana': 

print 'Your word,' + word + ', comes after banana.' 
else: 


print 'All right, bananas.' 


Python 不 能 像 人 一 祥 ， 区 分 大 写字 母 和 小 写字 母 。 所 有 的 大 写字 母 都 在 小 写字 母 之 前 ， 因 此 
结果 如 下 : 


Your word, Pineapple, comes before banana. 


解决 这 个 问题 的 常见 方法 是 将 字符 串 转 换 成 一 种 标准 格式 ， 例 如 ， 在 比较 之 前 都 转化 为 小 


2 : 
6.9 字符 串 方法 
字符 串 是 一 种 Python 对 象 。 一 个 对 象 包括 数据 〈 即 字符 串 本 身 ) 和 方法 。 这 些 方 法 是 内 置 在 
对 象 中 的 有 效 函 数 ， 可 以 作用 于 对 象 的 任 一 实例 。 


Python 有 一 个 dir 函 数 ， 它 可 以 列 出 对 象 所 有 可 用 的 方法 。type 本 数 显示 对 象 的 类 型 ，dir 本 数 
显示 的 是 对 象 可 用 的 方法 。 


>>> stuff = 'Hello world' 

>>> type(stuff) 

<type 'str'> 

>>> dir(stuff) 

['capitalize', 'center', 'count', 'decode', 'encode', 
'endswith', "expandtabs'， 'find', 'format', 'index', 
'isalnum', 'isalpha', 'isdigit', 'islower', 'isspace', 
'istitle', ‘isupper', 'jJoin’', “Jjust', Jower ， "lstrip', 
'partition', 'replace', 'rfind', 'rindex', 'rjust"', 
rpartitrom rsplie strrp 2 spec ysblrelanes 
'startswith', 'strip', 'swapcase', 'title', 'translate', 
"upper '， 'zfill'] 

>>> help(str.capitalize) 

Help on method_descriptor : 


capitalize(...) 
S.capitalize() -> string 


Return a copy of the string S with only its first character 
capitalized. 
>> > 


当 dir 函 数列 出 这 些 方法 ， 你 就 可 以 用 help 获 取 关 于 这 些 方 法 的 文档 。 有 关 字 符 串 方法 比较 全 
面 的 文档 详 见 http://docs.python.org/library/string.html。 


调用 方法 与 调用 函数 类 似 ， 都 是 传人 参数， 返回 结果 ， 但 它们 的 语法 是 不 同 的 。 调 用 方法 的 
语法 是 ， 使 用 句点 作为 分 隔 ， 在 变量 名 后 面 跟 上 方法 名 。 


例如 ，upper 方 法 接收 一 个 字符 串 ， 返 回 一 个 全 部 是 大 写字 母 的 新 字符 串 : 


这 次 不 使 用 upper(word) 落 数 ， 换 做 word.upper() 方 法 。 


>>> word = 'banana' 

>>> new_ word = word.upper() 
>>> print new_ word 

BANANA 


这 种 点 标记 形式 指明 方法 名 为 Upper， 将 此 方法 应 用 于 变量 word。 空 的 圆 括号 表示 这 个 方法 没 
有 参数 。 


召唤 一 个 方法 称 为 调用 。 这 个 例子 中 ， 在 word 对 象 上 调用 了 upper 方 法 。 
例如 ， 字 符 串 方法 find， 找 到 字符 串 中 字符 的 所 在 位 置 : 


>>> word = 'banana' 

>>> index = word.find('a') 
>>> print Index 

1 


在 这 个 例子 中 ， 我 们 在 word 对 象 上 调用 find 方 法 ， 将 待 寻 找 的 字母 作为 参数 。 
find 方 法 不 仅 适用 字符 ， 还 可 以 用 于 寻找 子 串 : 


>>> word.find('na') 
2 


find 方 法 还 可 以 设置 第 二 个 参数 ， 从 哪个 索引 位 置 开 始 查 找 : 


>>> word.find('na', 3) 
4 


一 个 常见 任务 是 利用 strip 方 法 移 除 字 符 串 首尾 的 空白 (包括 空格 、 制 表 符 和 换行 符 ) 。 


>>> line = ' Here we go 
>>> line.strip() 
'Here we go 


像 startswith 这 样 的 方法 返回 的 是 布尔 值 。 


>>> line = 'Please have a nice day' 
>>> line.startswith('Please') 

True 

>>> line.startswith('p') 


你 会 注意 到 ，startswith 方 法 对 大 小 写 敏 感 ， 在 检查 之 前 ， 使 用 lower 方 法 将 其 全 部 转换 为 小 写 
字母 。 


>>> line = "Please have a nice day， 
>>> line.startswith('p') 

False 

>>> line.lower() 

"please have a nice day' 

>>> line.lower().startswith('p') 
True 


一 个 例子 中 调用 了 lower 方 法 ， 然 后 用 startswith 方 法 检查 小 写 转 换 后 的 字符 串 是 否 以 字母 
et 只 要 留意 次 序 ， 我 们 就 可 以 在 一 个 表达 式 上 运用 多 种 方法 。 


习题 6.4 字符 串 方 法 count 与 之 前 练习 过 的 函数 相似 。 请 访问 
http://docs.python.org/library/string.html， 查 看 这 个 方法 的 文档 ， 编 写 一 个 方法 调用 ， 统 计 a 
在 'banana' 中 出 现 的 次 数 。 


6.10 字符 串 解 析 
通常 ， 我 们 想 要 在 一 个 字符 串 中 寻找 它 的 子 串 。 如 下 是 一 行 结构 化 的 字符 串 : 


From stephen.marquard@ uct.ac.za Sat Jan 5 09:14:16 2008 


我 们 只 想 抽 出 电子 邮件 的 第 二 部 分 ( 即 uct.ac.za) ， 可 以 通过 find 方 法 和 字符 串 切片 来 实现 。 
首先 ， 在 字符 串 中 找到 @ 符 号 的 位 置 。 其 次 ， 找 到 @ 符 号 之 后 第 一 个 空格 所 在 的 位 置 。 最 
后 ， 再 用 字符 串 切 片 来 提取 字符 串 中 我 们 需要 的 部 分 。 


>>> data = 'From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008' 
>>> atpos = data.find('@') 
>>> print atpos 


>>> sppos = data.find(' ',atpos) 
>>> print sppos 


>>> host = data[atpos+1:Ssppos] 
>>> print host 


uct.ac.za 
>>> 


这 里 使 用 的 是 find 方 法 的 一 种 用 法 ， 让 我 们 能 指定 find 方 法 从 何 处 开始 寻找 。 当 切 分 字符 串 
时 ， 我 们 提取 的 字符 是 “位 于 @ 符 号 之 后 但 不 包括 空格 "的 字符 。 


有 关 find 方 法 的 文档 ， 请 访问 http://docs.python.org/library/string.html。 


6.11 格式 操作 符 
格式 操作 符 % 可 以 构建 字符 串 ， 使 用 专 量 中 存储 的 数据 来 蔡 代 字 符 串 的 一 部 分 。 对 整数 而 二， 
% 是 模 运算 符 。 如 果 第 一 个 操作 对 象 是 字符 叫 ， 那 么 % 就 是 格式 操作 符 。 


第 一 个 操作 对 象 是 格式 字符 串 ， 它 包含 一 个 或 多 个 格式 化 序列 ， 用 来 指定 第 二 个 操作 对 象 的 
格式 。 最 终 义理 结果 是 字符 串 。 


例如 ， 格 式 序列 '%d' 表 示 第 二 个 操作 对 象 会 被 格式 化 为 整数 型 (d 表 示 十 进 制 ) 


>>> camels = 42 
>>> '%d' % camels 
“二 2 


运行 的 结果 是 字符 串 '42'， 不 要 与 整数 42 搞 混 了 。 


格式 序列 可 以 出 现在 字符 串 中 的 任意 位 置 ， 所 以 你 可 以 在 一 个 语句 中 嵌入 一 个 值 : 


>>> camels = 42 
>>> 'I have spotted %d camels.' % camels 
'I have Spotted 42 camels.' 


如 果 字 符 串 中 存在 多 个 格式 序列 ， 那 么 第 二 个 参数 必须 是 元 组 。 每 个 格式 序列 与 元 组 的 元 素 
依次 对 应 。 


下 面 的 例子 使 用 '%d' 格 式 化 整数 ，'%g' 格 式 化 浮 点 数 (不 要 问 为 什么 ) ，"%s' 格 式 化 字符 串 : 


>>> "In %d years I have Spotted %g %s.' % (3, 0.1, 'camels') 


元 组 中 元 素 的 数量 必须 与 字符 串 中 的 格式 序列 数量 一 致 。 另 外 ， 元 素 的 类 型 也 要 与 格式 序列 
匹配 : 


>>> '%d %d %d' % (1, 2) 
TypeError: not enough arguments for format string 
>>> '%d' % 'dollars' 


TypeError: illegal argument type for built-in operation 


第 一 个 例子 中 元 素 的 数量 不 够 ， 第 二 个 例子 中 元 素 的 格式 是 错 的 。 


格式 运算 符 很 强大 ， 但 不 那么 容易 上 手 。 如 需 了 解 更 多 ， 请 访问 
http://docs.python.org/lib/typesseq-strings.html。 


6.12 调试 


编程 时 经 常 问 问 自己 ，“ 这 里 可 能 出 现 什么 样 的 错误 ? "或 者 "我 们 的 用 户 可 能 会 做 怎样 疯狂 的 
事情 使 (看 似 ) 完美 的 程序 骨 溃 ?"。 这 是 需要 长 期 培养 的 编程 意识 。 


例如 ， 第 5 章 迭 代 中 介绍 while 循 环 的 程序 示例 如 下 : 


while True: 
line = raw_input('> ') 


if line[0] == '#'" : 
continue 

If line == 'done': 
break 


print line 


print 'Done!' 


当 用 户 输 入 一 个 空 行 会 发 生 什么 : 


> hello there 
hello there 
> # don't print this 
> print this! 
print this! 
> 
Traceback (most recent call last): 
File "copytildone.py", line 3, in <module> 
if line[0] == '#' : 


输入 空 行 之 前 代码 运行 正常 。 由 于 没有 第 0 位 字符 ， 我 们 得 到 了 异常 信息 反馈 。 两 种 方法 可 以 
解决 这 个 问题 ， 即 使 这 一 行为 空 ， 仍 然 能 保证 “安全 "运行 。 

一 种 方法 是 使 用 startswith 方 法 ， 如 果 字 符 串 为 空 就 返回 False。 

另 一 种 方法 是 使 用 守护 模式 ， 通 过 一 条 if 语句 进行 控制 ， 保 证 第 二 个 逻辑 表达 式 只 有 在 字符 串 


中 至 少 有 一 个 字符 时 进行 判断 。 


if len(line) > 0 and line[0] == '#' : 


6.13 术语 
计数 器 : 用 来 统计 的 变量 。 通 常 初始 化 为 震 ， 然 后 累 增 。 
空 字符 串 : 不 包含 字符 、 长 度 为 雳 的 字符 串 ， 用 两 个 引号 表示 。 


格式 操作 符 : % 操 作 符 对 格式 字符 串 和 元 组 进行 操作 ， 根 据 特定 格式 字符 串 ， 对 元 组 元 素 进 行 
格式 化 后 生成 一 个 字符 串 。 


格式 序列 : 格式 字符 串 中 的 字符 序列 ， 例 如 ，%d， 它 表示 一 个 值 应 该 如 何 进行 格式 化 。 
格式 字符 串 : 使 用 了 格式 操作 符 的 字符 串 ， 它 包含 了 格式 序列 。 

标记 : 用 来 表示 条 件 是 否 为 真 的 布尔 变量 。 

调用 : 方法 的 召唤 语句 。 

不 可 变 : 序列 的 一 种 属性 ， 序 列 中 的 数据 项 不 能 被 赋值 。 

索引 : 用 来 选择 序列 中 数据 项 的 一 个 整数 值 ， 例 如 ， 表 示 字 符 串 中 一 个 字符 的 位 置 。 
数据 项 : 序列 中 的 一 个 值 。 

方法 : 与 对 象 相关 的 函数 ， 使 用 句点 来 调用 。 


对 象 : 变量 可 以 引用 的 东西 。 现 在 ， 你 可 以 交 蔡 使 用 "对 象 " 或 者 " 值 ”。 
搜索 : 找到 所 要 找 的 内 容 才 会 停止 的 一 种 逼 历 模 式 。 

序列 : 一 个 有 序 集合 ， 集 合 中 的 每 个 值 通过 一 个 整数 索引 定位 。 
切片 : 根据 索引 区 间 指 定 字符 串 的 一 部 分 。 


通 历 : 通 历 序列 中 的 数据 项 ， 对 每 个 数据 项 执行 类 似 的 操作 。 


6.14 练习 
习题 6.5 使 用 以 下 语句 存储 一 个 字符 串 : 


str = “X-DSPAM-Confidence: 0.8475 


使 用 find 方 法 和 字符 串 切 片 ， 提 取出 字符 串 中 冒号 后 面 的 部 分 ， 然 后 使 用 float 函 数 ， 将 提取 出 
来 的 字符 串 转 换 为 浮 点 数 。 


习题 6.6 访问 http://docs.python.orgWib/string-methods.html， 阅 读 字 符 串 方法 的 文档 。 你 可 能 
想 要 拿 它们 操作 一 下 ， 以 便 理 解 它 们 的 工作 原理 。 字 符 串 方法 中 的 strip 和 replace 特 别 有 用 。 


文档 中 使 用 的 语法 可 能 会 使 人 困惑 。 例 如 ， 在 find(subl[, start[, end]) 中 ， 方 括号 表示 可 选 的 参 
数 。sub 是 必需 的 ，start 是 可 选 的 ; 如 果 包 含 了 start， 那 么 end 就 是 可 选 的 。 


第 7 章 文件 


7.1 持久 性 


截止 目前 ， 我 们 已 经 学 习 了 如 何 编写 程序 ， 通 过 条 件 执行 、 本 数 和 和 迭代 等 手段 ， 与 中 央 义 理 
器 CPU 沟通 我 们 的 意愿 。 我 们 还 学 习 了 如 何在 主 存 储 器 中 创建 与 使 用 数据 结构 。CPU 和 内 存 
是 软件 工作 与 运行 的 地 方 。 它 也 是 所 有 计算 机 进行 “思考 "的 大 脑 。 


回顾 一 下 之 前 讨论 过 的 硬件 架构 问题 ， 电 源 关 闭 后 CPU 和 与 主 存储 器 〈 也 就 是 内 存 ) 中 的 数据 
就 会 丢失 。 之 前 我 们 学 习 编 写 的 Python 程 序 仅 作为 临时 的 练习 。 
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本 章 介 绍 辅助 存储 器 (也 就 是 文件 ) 。 电 源 关 闭 后 辅助 存储 器 里 的 数据 不 会 又 。 借 助 U 盘 (内 
存 ) ， 我 们 可 以 把 程序 从 一 个 系统 转移 到 另 一 个 系统 。 


首先 ， 我 们 学 习 文本 文件 的 读 写 。 这 里 的 文本 文件 是 指 我 们 在 文本 编辑 器 中 创建 的 。 然 后 ， 
我 们 会 了 解 如 何 与 数据 库 文件 进行 交互 ， 例 如 ， 二 进 制 文件 ， 通 过 数据 库 软 件 进 行 读 写 。 


7.2 打开 文件 


从 硬 瘟 上 读 写 文件 之 前 ， 必 须 首先 打开 这 个 文件 。 打 开 文 件 需要 和 与 操作 系统 进行 对 话 ， 它 知 
道 文件 数据 的 存储 位 置 。 打 开 一 个 文件 时 ， 让 操作 系统 通过 文件 名 找到 它 ， 并 确定 这 个 文件 
是 否 存在 。 在 下 面 的 例子 中 ， 我 们 打开 mbox.txt 这 个 文件 ， 它 应 该 存储 在 你 运行 的 python 程 序 
同一 个 文件 夹 下 。 这 个 示例 用 来 打开 mbox.txt 文 件 。 这 个 文件 存储 在 你 启动 Python 时 所 在 的 那 
个 文件 夹 。 从 http://www.py4inf.com/code/mbox.txt 下 载 这 个 文件 。 


>>> fhand = open( 'mbox.txt') 
>>> print fhand 
<open file 'mbox.txt', mode 'r' at 0x1005088b0> 


如 果 文 件 成 功 被 打开 ， 操 作 系 统 会 返回 一 个 文件 句柄 。 文 件 句 柄 并 不 存储 文件 的 实际 数据 ， 
只 是 一 个 “操作 ”用 于 读 取 数据 。 如 果 请 求 的 文件 存在 ， 你 会 得 到 一 个 句柄 并 获得 读 取 该 文件 
的 相应 权限 。 
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如 果 文件 不 存在 ， 打 开 失 败 ， 输 出 追踪 错误 信息 ， 无 法 得 到 访问 文件 内 容 的 句柄 。 


>>> fhand = open('stuff.txt') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
IOError: [Errno 2] No such file or directory: "Stuff.txt' 


移 后 ， 我 们 会 使 用 try 和 except 更 好 地 处 理 文件 打开 时 文件 不 存在 的 情况 。 


7.3 文本 文件 与 文本 行 


文本 文件 可 视 为 若干 文本 行 的 序列 ， 这 与 Python 字符 串 是 字符 的 序列 道理 相同 。 举 例 来 说 ， 
以 下 是 一 个 文本 文件 示例 ， 记 录 了 在 一 个 开源 项 目 中 开发 团队 成 员 的 邮件 活动 。 


邮件 交流 的 整体 文件 可 以 从 http://www.py4inf.com/code/mbox.txt 下 载 。 文 件 的 缩减 版 可 以 从 
http://www.py4inf.com/code/mbox-short.txt 下 载 。 文 件 中 包含 多 条 邮件 ， 遵 守 一 种 标准 格式 。 
以 “From "开头 的 行 是 每 一 条 邮件 第 一 行 ， 以 “From:” 开头 的 行 是 邮件 的 一 部 分 ， 注 意 区 分 。 更 
多 信息 请 访问 http://en.wikipedia.org/wiki/Mbox。 


将 文本 文件 分 解 成 文本 行 ，“ 一 行 的 结束 ”用 专门 的 字符 来 表示 ， 称 为 换行 符 。 


Python 字符 串 常 量 的 换行 符 用 \n 表 示 。 这 看 起 来 像 两 个 字符 ， 事 实 上 它 是 一 个 字符 。 在 
Python 解释 器 中 输入 变量 stuff，\n 出 现在 字符 串 中 ， 使 用 print 语 句 可 以 看 到 字符 串 被 换行 符 分 
成 了 两 行 。 


>>> stuff = 'Hello\nWworld!' 
>>> stuff 
'Hello\nworld!' 
>>> print stuff 
Hello 

World! 

>>> stuff = 'X\nY' 
>>> print stuff 

X 

yf 

>>> len(stuff) 

3 


为 换行 符 是 一 个 字符 ， 所 以 字符 串 “X\nY” 的 长 度 是 3。 


基于 以 上 考虑 ， 逐 行 读 取 文件 时 ， 我 们 需要 知道 每 一 行 的 结尾 都 有 一 个 特殊 的 隐藏 字符 ， 即 
换行 符 。 


总 之 ， 换 行 符 将 文本 文件 分 解 为 若干 文本 行 。 
7.4 读 取 文本 行 


虽然 文件 句柄 并 不 包含 文件 的 数据 ， 但 它 可 以 方便 地 构建 一 个 for 循 环 ， 按 行 依次 读 取 文 件 。 


fhand 
count 


open('mbox.txt') 
0 
for line in fhand: 


count = count + 1 
print "Line Count:', count 


python open.py 
Line Count: 132045 


for 循 环 中 文件 句柄 被 当做 序列 来 使 用 。 在 这 个 示例 中 ，for 循 环 只 是 简单 地 计算 并 输出 文件 的 
行 数 。 这 个 循环 大 致 用 英语 可 以 翻译 成 : “每 遇 到 文件 中 的 一 行 (表示 为 文件 句柄 ) ， 将 count 
变量 值 加 一 ”。 


open 辑 数 如 果 没 能 读 取 整 个 文件 ， 可 能 是 文件 过 大 ， 其 中 包含 许多 个 G 的 数据 。 不 论文 件 大 
小 ，open 语 句 的 打开 时 间 是 不 变 的 。 最 终 ，for 循 环 读 取 了 文件 中 的 数据 。 


以 for 循 环 这 种 方式 读 取 文件 时 ，Python 根 据 换行 符 将 文件 数据 分 成 若干 文本 行 。Python 根 据 
换行 符 获得 一 行 ， 每 次 迭代 中 将 换行 符 作 为 一 行 的 最 后 一 个 字符 。 


由 于 for 循 环 每 次 只 读 取 一 行 数据 ， 因 此 它 能 高 效 地 读 取 和 与 统计 出 大 型 文件 的 文本 行 ， 无 需 耗 
尽 内 存 来 存储 数据 。 上 面 的 程序 只 使 用 很 少 的 内 存 就 能 统计 处 任意 大 小 文件 的 文本 行 ， 它 先 
读 取 ， 然 后 统计 ， 最 后 舍弃 。 


如 果 文 件 大 小 相对 于 内 存 容量 来 说 很 小 ， 那 么 就 可 以 把 它 当 做 一 个 字符 串 ， 在 文件 句柄 上 使 
用 read 方 法 一 次 性 读 取 进来 。 


>>> fhand = open('mbox-short.txt') 
>>> inp = fhand.read() 

>>> print len(inp) 

94626 

>>> print inp[:20] 

From stephen.marquar 


在 这 个 示例 中 ， mbox-short.txt 整 个 文件 (总 计 94626 个 字符 ) 直接 被 读 入 到 变量 inp 中 。 我 们 
使 用 字符 串 分 割 ， 打 印 出 变量 inp 中 存储 的 字符 串 前 20 个 字符 。 


以 这 种 方式 读 取 文件 时 ， 所 有 的 文本 行 和 换行 符 被 当做 一 个 整体 ， 作 为 一 个 大 字符 串 存 储 在 
inp 变 量 中 。 请 记 住 ， 只 有 当 计 算 机 内 存 能 够 承载 文件 数据 大 小 的 情况 下 ， 才 能 用 这 种 方式 打 
开 文 件 。 


如 果 文 件 太 大 ， 内 容 无 法 承载 ， 那 就 需要 写 一 个 for 或 while 循 环 来 分 块 读 取 。 


7.5 搜索 文件 


搜索 文件 中 数据 的 一 种 最 常见 方式 是 通读 整个 文件 ， 只 处 理 符 合 特定 条 件 的 文本 行 ， 其 他 一 
概 忽 略 。 我 们 将 文件 读 取 与 字符 串 方 法 结合 起 来 ， 构 建 简单 的 搜索 机 制 。 


举例 来 说 ， 读 取 一 个 文件 并 把 以 "From:" 开 头 的 行 打印 出 来 。 我 们 可 以 使 用 字符 串 startwith 方 
法 来 选择 符合 前 级 要 求 的 行 。 


fhand = open( "mbox-Short .txt') 
for line in fhand: 
if line.startswith('From:') : 
print line 


程序 运行 结果 如 下 : 


From: stephen.marquard@uct.ac.za 
From: louis@media.berkeley.edu 
From: zqian@umich.edu 


From: rjlowe@iupui.edu 


输出 结果 正 是 我 们 想 要 的 以 ‘Form:” 开 头 的 行 ， 但 是 为 什么 会 有 多 余 的 空 行 出 现 呢 ? 这 是 由 于 
不 可 见 的 换行 符 所 致 。 每 一 行 都 以 换行 符 结 束 ， 因 此 print 语 句 输 出 的 变量 line 中 的 字符 串 带 有 
一 个 换行 符 ，print 输 出 时 本 身 还 会 增加 一 个 换行 符 ， 所 以 最 终 就 变 成 了 空 两 行 。 


我 们 可 以 使 用 字符 串 分 割 来 打印 出 不 含 最 后 一 个 字符 的 文本 行 ， 不 过 还 有 一 个 更 简单 的 办 
法 ， 使 用 rstrip 方 法 截 掉 字符 串 后 面 的 空白 符 ， 程 序 代 码 如 下 所 示 : 


fhand = open('mbox-short.txt"') 
for line in fhand: 
line = line.rstrip() 
If line.startswith('From:') : 
print line 


程序 运行 结果 如 下 : 


From: stephen.marquard@uct.ac.za 
From: louis@media.berkeley.edu 
From: zqian@umich.edu 

From: rjlowe@iupui.edu 

From: zqian@umich.edu 

From: rjlowe@iupui.edu 

From: cwen@iupui.edu 


随 着 文件 处 理 程序 变 得 越 来 越 复 杂 ， 你 可 能 会 用 到 continue 语 句 来 编写 搜索 循环 。 搜 索 循环 的 
基本 思路 是 寻找 “ 感 兴趣 的 " 行 ， 跳 过 “不 感 兴趣 的 " 行 。 当 找到 感 兴趣 的 的 文本 行 ， 执 行 相应 的 


跳 过 不 感 兴趣 的 文本 行 的 循环 结构 ， 代 码 如 下 所 示 : 


fhand = open( "mbox-Short .txt') 
for line in fhand: 
line = line.rstrip() 
# Skip 'uninteresting lines' 
if not line.startswith('From:') : 
continue 
# Process our 'interesting' line 
print line 


程序 运行 结果 是 一 a 样 理 解 ， 不 感 兴趣 的 文本 行 就 是 那些 不 以 "From:" 开 头 的 行 ， 
我 们 使 用 continue 跳 过 这 些 行 。 对 于 感 兴趣 的 文本 行 ， 也 就 是 那些 以 "From : "开头 的 行 ， 我 们 
进行 相应 义理 。 


我 们 可 以 使 用 字符 串 方 法 find 来 模拟 文本 编辑 器 的 搜索 功能 ， 找 到 任何 一 行 中 出 现 待 查 的 字符 
串 。 由 于 find 方 法 可 以 寻找 一 个 字符 串 在 另 一 个 字符 串 中 出 现 的 次 数 ， 也 可 以 返回 字符 串 的 位 
置 或 -1 (表示 字符 串 没 有 找到 ) 。 我 们 编写 一 个 循环 ， 找 到 包含 "@uctac.za" 字 符 串 的 文本 
行 ， 也 就 是 找到 来 自 南非 开 普 敦 大 学 的 邮件 。 


fhand = open( "mbox-Short .txt') 
for line in fhand: 
line = line.rstrip() 
If line.find('@uct.ac.za') == -1 : 
continue 
print line 


程序 运行 结果 如 下 : 


From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 
X-Authentication-warning: set sender to stephen.marquard@uct.ac.za Using -f 
From: stephen.marquard@uct.ac.za 

Author: stephen.marquard@uct.ac.za 

From david.horwitz@uct.ac.za Fri Jan 4 07:02:32 2008 
X-Authentication-warning: set sender to david.horwitz@uct.ac.za using -f 
From: david.horwitz@uct.ac.za 

Author: david,horwitzQ@uct .ac.za 


7.6 让 用 户 选择 文件 名 


我 们 不 希望 在 义理 不 同文 件 时 每 次 都 要 修改 python 代 码 。 一 个 更 号 的 方法 是 每 次 运行 程序 
时 ， 让 用 户 自己 输入 文件 名 。 这 样 一 来 ， 用 户 就 可 以 将 这 个 程序 用 于 不 同文 件 ， 无 需 改 动 
Python 代码 。 


一 个 非常 简单 的 方法 可 以 满足 以 上 需求 ， 使 用 raw_input 方 法 让 用 户 输入 文件 名 ， 代 码 如 下 所 


示 : 


fname = raw_input('Enter the file name: ') 
fhand = open(fname) 
count = 0 
for line in fhand: 
If line.startswith('Subject:') 
count = count + 1 


print 'There were', count, 'subject lines in' 


,， fname 


从 用 户 那 里 获得 文件 名 ， 把 它 赋予 fname 变 量 ， 然 后 打开 对 应 的 文件 。 现 在 ， 我 们 可 以 对 不 同 


的 文件 重复 运行 这 个 程序 了 。 


python search6 .py 
Enter the file name: mbox.txt 
There were 1797 Subject lines in mbox .txt 


python search6.py 
Enter the file name: mbox-short.txt 


There were 27 Subject lines in mbox-short.txt 


进入 下 一 小 节 之 前 ， 仔 细 查 看 这 段 程序 ， 问 问 自己 : 
这 


的 用 户 可 能 会 做 些 什 么 ， 导 致 
了 


“可 能 会 出 现 的 错误 是 什么 ? ”或 者 “友好 


个 精巧 的 程序 会 报错 ， 这 样 的 话 我 们 在 用 户 眼中 就 不 那么 酷 


7.7 使 用 try、except 与 open 


告诉 过 你 不 要 偷 看 。 这 是 最 后 的 机 会 。 
如 果 用 户 输入 的 不 是 一 个 文件 名 呢 ? 


python search6 .py 
Enter the file name: missing .txt 
Traceback (most recent call last): 
File "search6.py", line 2, in <module> 
fhand = open(fname) 


IOError: [Errno 2] No such file or directory: 


python search6.py 
Enter the file name: na na boo boo 
Traceback (most recent call last): 
File "search6.py", line 2, in <module> 
fhand = open(fname) 


IOError: [Errno 2] No such file or directory: 


'missing.txt'" 


"na na boo boo' 


不 要 笑 ， 不 管 是 有 意 还 是 无 意 ， 用 户 做 的 任何 操作 都 有 可 能 破坏 你 的 程序 。 事 实 上 ， 软 件 开 
发 团队 中 有 一 个 重要 的 部 分 是 质量 保障 (简称 QA) ， 可 能 由 一 个 人 或 一 个 小 组 负责 。 他 们 的 
工作 就 是 尽 可 能 尝试 破坏 程序 员 开 发 的 软件 。 


在 用 户 购买 软件 或 为 程序 员 付 薪水 之 前 ，QA 团 队 的 责任 就 是 寻找 程序 的 缺陷 。 可 以 这 样 说 ， 
QA 团队 是 程序 员 的 最 佳 搭 档 。 


程序 出 错 可 以 用 try/except 结 构 快 速 修复 。 假 设 open 方 法 打开 文件 时 会 出 错 ， 那 么 在 open 方 法 
打开 失败 时 ， 增 加 一 个 恢复 模式 ， 代 码 如 下 : 


fname = raw_input('Enter the file name: ') 


try: 
fhand = open(fname) 

except: 
print 'File cannot be opened:', fname 
exit() 

count = 0 


for line in fhand: 
If line.startswith('Subject:') : 
count = count + 1 
print 'There were', count, 'subject lines in', fname 


exit 范 数 会 终止 程序 ， 这 个 程序 永 不 返回 值 。 当 用 户 (或 QA 团队 ) 输入 不 正确 的 文件 名 时 ， 
我 们 可 以 "捕获 "它们 并 快速 进行 修复 : 


python Search7 .py 
Enter the file name: mbox.txt 
There were 1797 Subject lines in mbox.txt 


python Search7 .py 
Enter the file name: na na boo boo 
File cannot be opened: na na boo boo 


对 open 方 法 调用 的 保护 是 Python 程序 中 try/except 的 典型 用 法 。 以 Python 方式 做 事 ， 我 们 使 
用 “Pythonic" 这 个 术语 (Python 风格 ) 。 上 面 的 例子 可 称 为 文件 打开 的 Python 风格 。 当 更 加 熟 
悉 Python 后 ， 你 会 经 常 和 其 他 程序 员 讨 论 ， 两 个 效果 相同 的 方案 哪 一 个 更 具有 Python 风格 。 
您 发 Python 风格 化 的 目的 是 将 编程 变 得 工程 性 与 艺术 性 兼备 。 我 们 不 仅 要 让 程序 能 够 正常 工 
作 ， 还 要 让 解决 方案 更 加 优雅。 


7.8 守 人 文件 


为 了 能 够 宇 入 文件 ， 需 要 在 打开 文件 时 使 用 “w" 作 为 第 二 个 参数 。 


>>> fout = open('output.txt', 'w') 
>>> print fout 
<open file "output.txt'，mode 'w' at 0xb7eb2410> 


如 果 文 件 已 经 存在 ， 以 写 人 模式 打开 文件 ， 这 样 会 删除 日 数据 ， 因 此 请 谨慎 使 用 。 如 果 文 件 


不 存在 ， 那 么 会 创建 一 个 新 的 文件 。 
文件 句柄 对 象 的 write 方法 把 数据 写 入 文件 。 


>>> line1 = 'This here's the wattle,\n' 
>>> fout.write(linel1) 


在 结束 一 行 时 ， 确 保 已 明确 插入 了 换行 符 。print 语 句 会 自动 加 上 一 个 换行 符 ， 而 write 方 法 不 


>>> line2 = 'the emblem of our land.\n' 
>>> fout.write(line2) 


当 文 件 写 人 完成 ， 记 得 关闭 文件 ， 确 保 写 人 物理 磁盘 ， 这 样 断 电 后 数据 地 不 会 去 失 。 


>>> fout.close() 


以 读 方式 打开 文件 也 要 记得 关闭 文件 。 只 顾 打 开 新 文件 就 显得 有 点 粗心 大 意 了 。Python 会 在 
程序 结束 时 ， 确 认 所 有 打开 的 文件 被 关闭 了 。 当 写 入 文件 时 ， 我 们 要 对 文件 关闭 进行 明确 声 
明 ， 确 保 万 无 一 失 。 


7.9 调试 


读 写 文件 时 ， 你 可 能 会 遇 到 空格 带 来 的 问题 。 因 为 空格 符 、 制 表 符 和 换行 符 是 隐藏 的 ， 所 以 
这 些 错 误 很 难 调试 。 


>>> s = '1 2\t 3\n 4' 
>>> print s 

dl 2 

4 


内 置 函 数 repr 可 以 解决 这 类 问题 。 它 将 任 一 对 象 作为 参数 ， 返 回 该 对 象 的 一 个 字符 串 表 示 。 字 
符 串 中 用 反 斜 杠 序列 代表 空白 字符 。 


>>> print repr(s) 
NEESNmE42 
这 对 调试 很 有 帮助 。 


另 一 个 可 能 遇 到 的 问题 是 ， 不 同 的 操作 系统 使 用 不 同 的 字符 来 表示 一 行 的 结束 。 一 些 操作 系 
统 使 用 换行 符 m， 一 些 操作 系统 使 用 返回 字符 Y， 还 有 一 些 操作 系统 两 者 都 使 用 。 如 果 在 不 同 
的 操作 系统 之 间 转 移 文件 ， 这 些 差 异 可 能 会 导致 错误 发 生 。 


绝 大 多 数 操作 系统 都 提供 格式 转换 的 应 用 。 详 细 信 息 和 更 多 疑问 请 访问 
http://wikipedia.org/wiki/Newline。 当 然 ， 你 也 可 以 自己 写 一 


7.10 术语 


捕获 : 使 用 try/except 语 句 防 止 程序 意外 中 止 。 
换行 符 : 在 文件 和 字符 串 中 表示 一 行 结尾 的 特殊 字符 。 


pythonels: : 让 Python 更 简洁 、 明 确 、 高 效 工作 的 编程 技术 。 使 用 try 和 except 来 恢复 丢失 的 
文件 ， 这 是 Python 风格 的 一 个 典型 举例 。 


质量 保证 : 负责 软件 产品 整体 质量 保证 的 一 个 人 或 一 个 团队 。QA 任 务 包 插 产品 测试 与 识别 错 
误 ， 一 般 在 软件 发 布 之 前 进行 。 


文本 文件 : 保存 在 永久 存储 介质 〈 如 硬盘 ) 的 字符 序列 。 


7.11 练习 


习题 7.1 编写 一 个 程序 ， 读 取 一 个 文件 ， 以 大 写 方式 逐 行 打印 出 文件 内 容 。 程 序 运行 结果 如 下 
所 示 : 


python Shout .py 
Enter a file name: mbox-Short ,txt 
FROM STEPHEN .MARQUARDQUCT.AC.ZA SAT JAN 5 09:14:16 2008 
RETURN -PATH : <POSTMASTERQCOLLAB .SAKAIPROJECT .ORG> 
RECEIVED: FROM MURDER (MAIL.UMICH.EDU [141.211.14.90]) 
BY FRANKENSTEIN .MAIL .UMICH.EDU (CYRUS V2.3.8) WITH LMTPA; 
SAT, 05 JAN 2008 09:14:16 -0500 


你 可 以 从 http://www.py4inf.com/code/mbox-short.txt 下 载 文 本 文件 。 
习题 7.2 编写 一 个 程序 ， 让 用 户 输入 文件 名 ， 然 后 读 取 文件 ， 按 行 的 形式 j 进 行 查看 。 


X-DSPAM-Confidence: 0.8475 


遇 到 以 “X-DSPAM-Confidence : "开头 的 行 ， 提 取 该 行 中 的 浮 点 数 。 统 计 行 数 ， 计 算 这 些 行 
垃圾 邮件 信 度 值 。 文 件 读 取 结 束 后 ， 打 印 垃圾 邮件 平均 信 度 。 


Enter the file name: mbox .txXt 
Average Spam confidence: 0.894128046745 


Enter the file name: mbox-Sshort ,txt 
Average Spam confidence: 0.750718518519 


用 mbox.txt 和 mbox-short.txt 这 两 个 文件 测试 你 的 代码 。 


习题 7.3 有 时 候 ， 程 序 员 感 到 无 聊 或 是 想 找 点 乐子 ， 他 们 会 在 程序 里 加 入 彩蛋 〈 无 害 的 代码 ) 

(http://en.wikipedia.org/wiki/Easter_egg_(media)) 。 修 改 上 面 的 程序 ， 当 用 户 输入 “na na 
boo boo” 时 ， 打 印 一 些 有 趣 的 消息 。 不 管 文 件 是 否 存 在 ， 程 序 都 能 正常 运行 。 下 面 是 程序 运 
行 样本 : 


python egg.py 
Enter the file name: mbox.txt 


There were 1797 subject lines in mbox.txt 


python egg.py 
Enter the file name: missing.tyxt 


File cannot be opened: missing.tyxt 


python egg.py 
Enter the file name: na na boo boo 


NA NA BOO BOO TO YOU - You have been punk'd! 


不 鼓励 你 在 程序 里 加 入 彩蛋 ， 这 里 只 用 作 练 习 。 


第 8 章 列表 


8.1 列表 即 序 列 

与 字符 串 类 似 ， 列 表 是 由 若干 值 组 成 的 序列 。 字 符 串 中 的 值 是 字符 ; 列表 中 的 值 可 以 是 任何 
类 型 。 列 表 中 的 值 称 为 元 素 或 数据 项 。 

列表 的 创建 方法 有 好 几 种 ， 其 中 最 简单 的 是 用 方 括号 [将 元 素 括 起 来 : 


[10，20，30，40] 
['crunchy frog', 'ram bladder'， 'lark vomit'] 


第 一 个 例子 是 由 四 个 整数 组 成 的 列表 ， 第 二 个 例子 是 由 三 个 字符 串 组 成 的 列表 。 列 表 的 元 素 
不 要 求 是 同一 类 型 的 。 下 面 的 列表 包含 一 个 字符 串 ， 一 个 浮 点 数 ， 一 个 整数 ， 以 及 另 一 个 列 
表 : 


['spam', 2.0, 5, [10, 20]] 


一 个 列表 作为 另 一 个 列表 的 元 素 称 为 列表 嵌 套 。 
不 含 任何 元 素 的 列表 称 为 空 列表 ， 使 用 空 的 方 括 号 〈[) 创建 一 个 空 列表 。 
正如 你 可 能 期 望 的 ， 可 以 把 列表 值 赋 给 变量 : 


>>> cheeses = ['Cheddar', "Edam'， 'Gouda'] 
>>> numbers = [17，123] 

>>> empty = [] 

>>> print cheeses, numbers, empty 
['Cheddar', 'Edam', 'Gouda'] [17, 123] [] 


8.2 列表 是 可 变 的 


列表 元 素 的 访问 与 字符 串 中 字符 的 访问 语法 是 一 样 的 ， 使 用 方 括号 操作 符 。 方 括号 内 的 表达 
式 指 定 索 引 位置 。 请 注意 ， 索 引 从 0 开始 : 


>>> print cheeses[0] 
Cheddar 


与 字符 串 不 同 ， 列 表 是 可 变 的 。 你 可 以 改变 列表 中 元 素 的 顺序 ， 或 者 对 列表 中 的 元 素 重 新 赋 
值 。 当 括号 运算 符 出 现在 赋值 语句 的 左边 时 ， 就 可 以 给 列表 中 指定 的 元 素 赋 值 。 


>>> numbers = [17, 123] 
>>> numbers[1] = 5 

>>> print numbers 

[17, 5] 


numbers 列 表 的 第 二 个 元 素 之 前 是 123， 现 在 是 5。 


可 以 这 样 理解 ， 列 表 是 索引 与 元 素 之 间 的 一 种 关系 。 这 种 关系 称 为 映射 ， 每 一 个 索引 对 应 一 


个 元 素 。 
列表 与 字符 串 的 索引 用 法 相同 : 


。 任何 整数 表达 式 都 可 作为 索引 。 
。 试图 读 写 一 个 不 存在 的 元 素 时 ， 你 会 得 到 IndexError 索 引 错 误 提 示 。 
。 如 果 索 引 值 为 负 ， 表 示 从 列表 的 尾部 算 起 。 


in 运 算 符 也 适用 于 列表 : 
>>> cheeses = ['Cheddar', 'Edam', 'Gouda'] 


>>> 'Edam' in cheeses 
True 
>>> 'Brie' in cheeses 


False 


8.3 列表 的 通 历 
远 历 列表 元 素 最 常用 的 方法 是 使 用 for 循 环 。 带 历 洛 法 与 字符 串 带 历 相同 ; 


for cheese in cheeses : 
print cheese 


如 果 只 需 表 万 列表 的 元 素 ， 这 个 方法 就 足够 了 。 但 如 果 想 写 和 人 或 更 新 元 素 ， 这 时 就 需要 束 
引 。 一 个 常见 方法 是 range 函 数 和 |en 画 数 的 结合 使 用 : 


for i in range(len(numbers)): 
numbers[i] = numbers[i] * 2 


这 个 循环 可 以 下 历 并 更 新 列表 的 每 个 元 素 。len 孙 数 返回 列表 中 的 元 素 个 数 。range 范 数 返回 一 
个 索引 列表 ( 取 值 从 0 到 n-1) ， 其 中 n 是 列表 的 长 度 。 对 i 进 行 循环 ， 得 到 下 一 个 元 素 的 索引 。 
图 数 体 中 的 赋值 语句 使 用 i 读 取 元 素 的 旧 值 ， 然 后 给 它 赋予 新 值 。 


对 于 空 列表 来 说 ，for 循 环 不 会 执行 事 数 体 。 


for x in empty: 
print 'This never happens.' 


尽管 一 个 列表 可 以 包含 另 一 个 列表 ， 但 被 包含 的 列表 只 能 被 看 作 一 个 元 素 。 以 下 列表 的 长 度 
为 4 : 


['spam', 1, ['Brie', 'Roquefort', 'Pol le Veq'], [1, 2, 3]] 


8.4 列表 的 操作 
“+ 运算 符 连接 多 个 列表 : 


>>>7ae 2 
>>> b = [4, 5, 6] 
>>> c=a+tb 

>>> print c 
[E220 


类 似 地 ，“” 运 算 符 对 列表 进行 给 定 次 数 的 重复 : 


>>> [0] * 4 

[0, ©0, 0, 0] 

>>>a0 L231 

[el 2 | 


第 一 个 例子 将 列表 [0] 重 复 了 四 次 ， 第 二 个 例子 将 列表 [1,2,3] 重 复 了 三 次 。 


8.5 列表 的 分 割 


切片 操作 也 适用 于 列表 : 


如 果 省 略 第 一 个 索引 ， 切 片 将 从 列表 头 部 开始 ; 如 果 省 略 第 二 个 索引 ， 切 片 将 处 理 到 列表 的 
末尾 。 如 果 两 个 索引 参数 都 被 省 略 ， 将 会 得 到 整个 列表 。 


>>> t[:] 
[au 加 [有 Cs SD eT wf] 


由 于 列表 是 可 变 的， 在 进行 列表 折 重 、 拉 长 和 截断 等 操作 之 前 ， 最 好 保留 一 份 列 表 的 副本 。 
赋值 语句 左边 的 切片 操作 可 以 更 新 多 个 元 素 : 


pi t = 本:ase 0 Ci ya Cas fe] 
>>>°t [3 Yd 

>>> print t 

[本 ae EX SV ol Vy ef 


8.6 列表 的 操作 方法 
Python 提供 了 一 些 操作 列表 方法 。 例 如 ， 使 用 append 在 列表 尾部 添加 一 个 新 元 素 。 


>>> 本 二 as os exo | 
>>> t.append('d') 

>>> print t 

eau, 0) 和 'd'] 


extend 可 以 将 列表 作为 参数 ， 并 把 一 个 列表 的 所 有 元 素 添 加 到 另 一 个 列表 的 尾部 。 


>>> 小 二 BE ep vCal 
>>> 这 二 Ed “e 

>>> t1.extend(t2) 

>>> print t1 

[ae ol We Wl ve 


这 个 示例 中 t2 没 有 发 生 改 变 。 
sort 可 以 将 列表 元 素 从 低 到 高 排序 。 


>>> t 二 so el WG EA oe 'a'] 
>>> t,Sort() 

>>> print t 

aes oe C3 Ole "re"] 


大 多 数列 表 方 法 是 没有 返回 值 的 ， 它 们 会 修改 列表 ， 但 返回 为 None。 如 果 你 不 小 心 写 了 下 面 
这 样 的 语句 t = t.sort() ， 得 到 的 {不 是 你 所 预期 的 排序 。 


8.7 删除 元 素 


删除 列表 元 素 的 方法 有 好 几 种 。 如 果 知 道 元 素 的 索引 位 置 ， 使 用 pop 方 法 进行 删除 : 


> 之 > 汪汪 [ai by cod 
>>> x = t.pop(1) 

>>> print t 

'c!] 

>>> print x 

b 


[L'a', 


上 面 的 程序 使 用 pop 修 改 了 列表 ， 打 印 输出 了 被 删除 的 元 素 。 
删除 并 返回 最 后 一 个 元 素 。 


如 果 无 需 返 回 删除 过 的 元 素 ， 可 以 直接 使 用 del 操 作 符 。 


>>> tau 
>>> del t[1] 

>>> print t 

'c!] 


sc 


[ a'， 


如 果 没 有 指定 素 引 位 置 ，pop 会 


如 果 只 知道 要 删除 的 元 素 ， 但 不 知道 它 的 索引 位 置 ， 可 以 使 用 remove 方 法 : 


St es a oi sc 
>>> t,remove('b') 
>>> print t 


Caw “ca 


remove 方 法 返回 值 为 None。 


当 需 要 删除 多 个 元 素 ， 可 以 根据 切片 索引 ， 使 用 del 来 实现 : 


ed as | oR Wes soln CE 
>>> del t[1:5] 

>>> print t 

fa] 


| 


[L'a', 


一 般 认为 ， 切 片 会 删除 两 个 索引 位 置 之 间 的 所 有 元 素 ， 实 际 上 切片 不 会 删除 第 二 个 索引 参数 


所 对 应 的 元 素 。 


8.8 列表 与 范 数 


列表 有 许多 内 嵌 画 数 可 用 来 天 历 ， 无 需 另 写 循环 代码 : 


>>> nums = [3，41，12，9，74，15] 
>>> print len(nums) 


>>> print max(nums ) 
>>> print min(nums) 
>>> print sum(nums) 


>>> print sum(nums)/len(nums) 


当 列 表 元 素 为 数字 时 ，sum() 画 数 才 会 起 作用 。 其 他 函数 如 max()、len() 等 对 字符 串 列 表 和 其 
他 可 进行 比较 的 数据 类 型 才 会 起 作用 。 


我 们 重 写 先前 计算 数字 列表 平均 值 的 程序 。 用 户 输入 一 个 列表 ， 程 序 输出 列表 的 平均 值 。 
首先 ， 不 使 用 列表 计算 平均 值 的 程序 如 下 : 


total = 0 
count = 0 
while ( True ) : 
inp = raw_input( 'Enter a number: ') 
if inp == 'done' : break 
value = float(inp) 
total = total + value 
count = count + 1 


average = total / count 
print 'Average:', average 


在 这 个 程序 中 ， 不 断 提示 用 户 输入 数据 时 ， 我 们 使 用 count 和 sum 两 个 变量 来 记录 数值 个 数 以 
及 求 和 。 


我 们 只 需 记 录 下 用 户 输入 的 数据 ， 在 循环 结束 后 ， 利 用 内 嵌 的 函数 计算 总 和 和 个 数 。 


numlist = list() 

while ( True ) : 
inp = raw_input('Enter a number: ') 
if inp == 'done' : break 
value = float(inp) 
numlist.append(value) 


average = sum(numlist) / len(numlist) 
print 'Average:', average 


在 循环 开始 之 前 ， 首 先 建 立 一 个 空 列 表 ， 每 得 到 一 个 数据 ， 就 把 它 添 加 到 列表 的 尾部 。 在 程 
序 最 后 ， 只 需 将 列表 中 数据 的 总 和 除 以 列表 的 长 度 ， 就 可 以 求 出 平均 值 。 


8.9 列表 与 字符 串 


字符 串 是 字符 的 序列 ， 而 列表 是 一 系列 值 的 序列 。 字 符 列 表 与 字符 串 是 不 同 的 。 我 们 可 利用 
list 方 法 ， 把 字符 串 转 换 成 字符 列表 : 


>>> S "Spam' 
list(s) 
>>> print t 


[es UO a 'm'] 


>>> t 


由 于 list 是 一 个 内 置 画 数 ， 应 避免 使 用 list 作 为 变量 名 。 笔 者 也 会 避免 使 用 | 作为 变量 名 ， 因 为 容 
易 和 数字 1 搞 湿 ， 这 也 就 是 为 什么 选择 t 作 为 变量 名 的 原因 。 


list 函 数 将 一 个 字符 串 转 化 成 一 些 单 独 的 字母 。 如 果 想 把 一 个 字符 串 分 成 羊 独 的 单词 ， 使 用 
split 函 数 : 


>>> s = 'pining for the fjords' 
>>> t = s.split() 

>>> print t 

['pining', "for'， 'the', 'fjords'] 
>>> print t[2] 

the 


一 且 使 用 split 函 数 将 字符 串 分 解 成 由 单词 组 成 的 序列 ， 你 就 可 以 利用 索引 操作 符 ( 方 括号 ) 来 
访问 列表 中 的 特定 单词 了 。 


split 函 数 有 一 个 可 选 参 数 ， 称 为 分 隔 符 (delimiter) 。 它 可 以 指定 特定 字符 作为 单词 之 间 的 界 
限 。 以 下 示例 将 连 字 符 “-" 作 为 分 隔 符 : 


join 函 数 与 split 范 数 的 作用 相反 。 它 使 用 字符 串 列表 ， 把 列表 元 素 连 接 起 来 。join 是 字符 串 方 
法 ， 所 以 必须 指定 分 隔 符 ， 将 列表 作为 参数 。 


>>> t = ['pining', 'for', 'the', 'fjords'] 
>>> delimiter = ' 

>>> delimiter .join(t) 

"pining for the fjords' 


在 这 个 例子 中 ， 分 隔 符 是 一 个 空格 。 所 以 join 函 数 会 在 两 个 单词 之 间 加 一 个 空格 。 如 要 连接 字 
符 串 无 需 间隔 ， 可 以 使 用 空 字符 串 (") 作为 分 隔 符 。 


/一 、 思 
8.10 行 间 解析 
From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 


split 方 法 处 理 此 类 问题 非常 有 效 。 先 编写 一 个 小 程序 ， 找 到 以 "from" 开 头 的 句子 ， 然 后 把 这 些 
句子 分 解 ， 最 后 输出 句子 中 的 第 三 个 单词 : 


fhand = open( "mbox-Short .txt') 
for line in fhand: 
line = line.rstrip() 
if not line.startswith('From ') : continue 
words = line.split() 
print words[2] 


我 们 也 可 以 通过 在 lf 语句 的 同一 行 放置 continue， 作 为 if 语 句 的 简化 形式 。 从 作用 上 讲 ，if 辑 数 
的 这 种 简化 形式 与 continue 在 下 一 行 的 缩 进 形 式 是 一 样 的 。 


程序 运行 结果 如 下 : 


会 介绍 更 复 末 的 行 间 文 本 提取 技术 ， 以 及 如 何 分 解 文 本 行 ， 从 中 找到 我 们 所 需要 的 


8.11 对 象 与 值 


执行 以 下 赋值 语句 : 
a = 'banana' 
b = 'banana' 


a 和 b 都 指向 一 个 字符 串 ， 但 它们 所 指向 的 是 不 是 同一 个 字符 串 呢 ? 存在 以 下 两 种 情况 : 


a 一 ~ 'banana RE 


b 一 > ,banana， a 


一 种 情况 是 ，a 和 b 指 向 具有 相同 值 的 两 个 不 同 对 象 。 另 一 种 情况 是 ， 它 们 指向 同一 个 对 象 。 


为 检验 到 底 属 于 哪 一 种 情况 ， 使 用 is 运算 符 ; 


>>> a = 'banana' 
>>> b = 'banana' 
>>> a is b 


True 


在 这 个 例子 中 ，Python 只 创建 了 一 个 对 象 ，a 和 b 都 指向 它 。 


如 果 创 建 两 个 列表 就 会 得 到 两 个 对 象 : 


>>> a = [1, 2, 3] 
>>> b = [1, 2, 3] 
>>> a is b 


False 


这 种 情况 下 ， 因 为 它们 拥有 相同 的 元 素 ， 我 们 可 以 说 这 两 个 列表 是 等 价 的 ， 但 不 能 说 它们 是 
同一 个 。 它 们 不 是 相同 的 对 象 。 当 然 ， 如 果 两 个 对 象 是 同一 个 ， 那 它们 肯定 是 等 价 的 ， 反 之 
不 成 立 。 

截止 目前 ， 我 们 还 在 交替 使 用 “对 象 " 和 "“ 值 "。 更 严 着 的 提 法 是 ， 对 象 拥有 值 。 当 执行 语句 a = 
[1,2,3] ，a 会 指向 一 个 列表 对 象 。 这 个 列表 对 象 的 值 是 一 个 特定 元 素 序列 。 此 时 ， 如 果 有 另 
外 一 个 列表 与 它 的 元 素 相同 ， 那 只 能 说 它们 拥有 相同 的 值 。 


8.12 别名 引用 
如 果 a 指 向 一 个 对 象 ， 当 执行 b=a 后 ， 两 个 变量 都 将 指向 同一 个 对 象 : 


>>> a = [1, 2, 3] 
>> > 0 =a 
>>> b is a 


True 


变量 与 对 象 之 间 的 关系 称 为 引用 。 在 这 个 例子 中 ， 同 一 个 对 象 有 两 个 引用 。 

拥有 多 个 引用 的 对 象 就 会 有 多 个 名 称 ， 这 种 现象 称 作 对 象 被 赋予 了 别名 。 

如 果 别 名 化 的 对 象 是 可 变 的， 那么 一 个 别名 的 变化 ， 将 会 影响 到 其 他 别名 的 引用 。 
>>> b[9] = 17 


>>> print a 
[17，2，3] 


尽管 这 一 行为 是 有 用 的 ， 但 也 容易 造成 错误 。 一 般 而 言 ， 可 变 的 对 象 最 好 不 要 使 用 别名 。 
像 字符 串 这 类 不 可 变 对 象 来 说 ， 别 名 并 不 会 造成 很 大 问题 。 如 下 所 示 : 


a = 'banana' 
b = 'banana' 


a 和 b 是 否 指 向 同一 个 字符 串 ， 这 几乎 没 差别 。 


8.13 列表 参数 


当 把 一 个 列表 传递 给 一 个 图 数 时 ， 画 数 就 会 得 到 该 列表 的 一 个 引用 。 如 果 这 个 函数 改 交 了 一 
个 列表 参数 ， 调 用 者 会 知道 这 个 变化 。 例 如 ，delete_head 删 除了 列表 的 第 一 个 元 素 : 


def delete_head(t): 
del t[9] 


下 面 是 它 的 用 法 : 


>>>" Letters = ab co 
>>> delete_head(letters) 

>>> print letters 

ec 


上 述 参 数 必 变量 letters 是 同一 个 对 象 的 别名 。 


区 分 修改 列表 与 新 建 列表 的 操作 ， 这 是 非常 重要 的 。 例 如 ， 下 面 的 示例 中 ，append 方 法 修改 
了 列表 ， 而 "+" 运算 符 新 建 了 一 个 列表 : 


> 之 > 三 用 [ 2 

>>> t2 = t1.append(3) 
>>> print t1 
E23 

>>> print t2 

None 


>>> 3 = te 
>>> print t3 
9273 

>>> t2 is t3 


False 


在 编写 列表 的 修改 函数 时 ， 这 种 区 别 显 得 非常 重要 。 例 如 ， 下 面 的 画 数 就 并 没有 达到 删除 列 
表 头 元 素 的 目的 : 


def bad_delete_head(t) : 
t= [| # WRONG! 


切片 操作 会 新 建 一 个 列表 ， 赋 值 语句 将 t 作 为 列表 的 引用 。 但 这 对 于 之 前 作为 参数 的 列表 来 说 
没有 任何 影响 。 


另 一 种 可 行 的 办 法 是 编写 一 个 画 数 ， 创 建 并 且 返 回 一 个 新 列表 。 例 如 ，tail 本 数 会 返回 一 个 新 
的 列表 ， 其 包含 除 第 一 个 元 素 之 外 的 其 他 所 有 元 素 。 


def tail(t): 
return t[1:] 


这 个 加 数 并 不 会 改变 原始 列表 。 以 下 是 它 的 用 法 : 
ES 
>>> rest = tail(letters) 


>>> print rest 
[De CS 


习题 8.1 编写 chop 画 数 ， 移 除 列 表 的 头 元 素 和 尾 元 素 ， 并 返回 None 值 。 
然后 ， 编 写 middle 函 数 ， 移 除 列表 的 头 元 素 和 尾 元 素 ， 返 回 一 个 新 列表 。 


8.14 调试 


列表 及 其 他 可 变 对 象 的 不 谨慎 使 用 ， 可 能 会 造成 长 时 间 的 调试 。 下 面 是 一 些 常 见 陷阱 以 及 如 
何 避 免 的 方法 : 


1) 大 多 数列 表 的 方法 会 修改 参数 并 返回 None 值 ， 这 和 与 字符 串 的 方法 是 相同 。 字 符 串 的 方法 
通常 会 返回 一 个 新 字符 串 ， 并 不 会 改变 原始 的 字符 串 。 


如 果 你 习惯 如 下 的 字符 串 代 码 的 编写 方式 : 


word = word.strip() 


那 你 有 可 能 写 出 如 下 的 列表 代码 : 


ES tSoOrt) # WRONG! 


为 sort 函 数 返 回 None 值 ， 所 以 接 下 来 赋予 变量 t 会 执行 失败 。 


使 用 列表 的 方法 和 操作 符 之 前 ， 你 应 该 仔细 阅读 文档 ， 然 后 在 Python 的 交互 模式 中 测 
试 。 列 表 和 与 其 他 序列 (如 字符 串 ) 共同 拥有 的 方法 和 操作 文档 位 于 
http://docs.python.org/lib/typesseq.html。 可 变 序 列 独 有 的 方法 与 操作 文档 位 于 
http://docs.python.org/lib/typesseq-mutable.html。 

2) 坚持 并 养 成 一 种 编写 习惯 
列表 的 部 分 问题 是 由 于 多 种 方式 都 可 以 达到 相同 目的 造成 的 。 比 如 ， 删 除 列表 元 素 的 方法 有 
pop、remove、del 其 至 分 片 等 。 


若 添 加 一 个 元 素 ， 你 也 可 以 使 用 append 方 法 或 “+” 运 算 符 。 请 不 要 忘记 ， 下 面 的 写法 是 正确 
的 : 


t.append(x) 
t=t + [x] 


而 下 面 的 写法 是 错误 的 : 


t.append( [x]) # WRONG! 
t = t.append(x) # WRONG! 
t + [x] # WRONG! 
t=t+x # WRONG! 


请 在 Python 交 互 模式 中 逐一 练习 ， 确 保 自己 搞 清楚 了 。 还 有 ， 上 面 例子 中 只 有 最 后 一 个 会 造 
成 运行 错误 ， 其 他 三 个 可 以 运行 ， 只 不 过 没有 按照 我 们 的 预期 运行 。 


3) 保留 列表 副本 ， 避 免 直 接 引 用 
如 果 使 用 像 sort 这 样 会 改变 参数 的 方法 ， 还 要 保留 原始 列表 ， 复 制 一 份 列 表 副 本 。 


orig = t[:] 
t.sort() 


在 这 个 例子 中 ， 你 也 可 以 使 用 列表 内 和 置 的 sorted 函 数 。 这 个 画 数 会 返回 一 个 排序 后 的 新 列表 ， 
而 不 会 改变 原始 列表 。 在 这 种 情况 下 ， 频 避免 怪 sorted 用 于 变量 命名 。 


4) 列表 、 切 片 与 文件 


当 读 取 和 解析 文件 时 ， 可 能 有 一 些 输入 会 破坏 我 们 的 程序 。 编 写 一 个 程序 来 读 取 文 件 ， 进 
行 “大 海 捞 针 " 式 找寻 ， 这 时 打开 守护 模式 是 很 有 必要 的 。 


让 我 们 重 温 之 前 的 行 间 读 取 程 序 ， 找 出 以 From 开 头 的 行 中 包含 的 星期 时 间 : 


From stephen.marquardQ@uct .ac.za Sat Jan 5 09:14:16 2008 


由 于 我 们 将 一 行 分 解 成 了 一 个 个 单词 ， 可 以 使 用 startwith 函 数 ， 只 需 查 看 每 一 行 的 第 一 个 单 
词 ， 就 可 以 决定 它 是 否 符合 要 求 。 另 外 ， 还 可 以 使 用 continue 来 跳 过 不 是 以 From 开 头 的 文本 
行 ， 代 码 如 下 所 示 : 


fhand = open('mbox-short.txt"') 

for line in fhand: 
words = line.split() 
if words[0] != 'From' : continue 
print words[2] 


这 看 起 来 更 简单 了 ， 基 至 都 不 需要 运行 rstrip 来 删除 文件 末尾 的 换行 符 。 但 这 样 就 真得 更 好 了 
吗 ? 


python search8.py 
Sat 
Traceback (most recent call last): 
File "search8.py", line 5, in <module> 
if words[0] != 'From' : continue 
IndexError: list index out of range 


这 个 程序 会 部 分 运行 成 功 ， 我 们 可 以 顺利 地 把 第 一 个 符合 要 求 的 行 的 第 一 个 单词 输出 ， 但 随 
后 程序 会 中 止 ， 输 出 一 个 追踪 错误 。 哪 里 出 现 问题 了 ?到 底 是 什么 样 的 混乱 数据 ， 使 得 看 似 
优雅 灵活 的 Python 程序 出 错 ? 


你 也 许 会 较真 ， 陷 和 人 深 深 的 思考 ， 或 寻求 他 人 帮助 。 最 快捷 和 有 效 的 方法 是 ， 添 加 一 个 print 
语句 。 添 加 语句 的 最 佳 位 置 在 程序 出 错 那 一 行 之 前 ， 这 样 有 可 能 打印 出 导致 出 错 的 数据 。 


虽然 这 个 方法 会 输出 大 量 的 行 ， 但 至 少 可 以 快速 找到 问题 解决 的 一 些 线索 。 因 此 ， 我 们 在 第 
五 句 前 面 添 加 了 一 条 打印 变量 words 的 语句 。 我 们 甚至 还 加 了 一 个 “Debug:" 前 缀 ， 这 样 做 是 为 
了 和 与 其 他 正常 的 输出 区 分 开 来 。 


for line in fhand: 
words = line.split() 
print 'Debug:', words 
if words[0] != 'From' : continue 
print words[2] 


运行 这 个 程序 ， 屏 幕 会 出 现 大 量 滚动 式 输出 。 在 输出 的 末尾 ， 我 们 只 需要 查看 调试 输出 和 追 
踪 错 误 信息 ， 便 可 知道 在 追踪 模块 之 前 发 生 了 什么 。 


Debug: ['X-DSPAM-Confidence:', '0.8475 ' ] 
Debug: ['X-DSPAM-Probability:', '0.0000'] 
Debug: [] 
Traceback (most recent call last): 
File "search9.py", line 6, in <module> 
if words[0] != 'From' : continue 
IndexError: list index out of range 


每 一 个 调试 行 都 会 输出 单词 列表 ， 这 些 单 词 是 对 文本 行进 行 分 解 后 得 到 的 。 当 程序 出 错 ， 单 
词 列表 为 空 ]。 这 时 ， 在 文本 编辑 器 中 打开 文件 ， 内 容 显 示 如 下 : 


X-DSPAM-Result: Innocent 

X-DSPAM-Processed: Sat Jan 5 09:14:16 2008 
X-DSPAM-Confidence: 0.8475 
X-DSPAM-Probability: 0.0000 


Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772 


程序 遇 到 了 一 个 空 行 ， 错 误 原来 在 这 里 。 很 显然 ， 空 行 里 是 没有 单词 的 。 我 们 在 写 代 码 时 怎 
么 就 没有 考虑 到 这 个 问题 呢 ? 当 程 序 试 着 对 空 行 的 第 一 个 单词 (word[0]) 进行 “From” 匹 配 
时 ， 由 于 没有 找到 单词 ， 所 以 就 出 现 "索引 范围 超出 "的 错误 。 


在 第 五 行 添加 守护 代码 ， 避 免 对 不 存在 第 一 个 单词 的 空 行进 行 比 对 ， 这 个 位 置 是 最 好 的 。 还 
有 许多 方法 来 守护 这 个 代码 ， 我 们 会 选择 在 查看 第 一 个 词 之 前 ， 检 查 单词 个 数 : 


fhand = open( "mbox-Short .txt') 
count = 0 
for line in fhand: 
words = line.split() 
# print 'Debug:', words 
If len(words) == 0 : continue 
if words[0] != 'From' : continue 
print words[2] 


首先 ， 我 们 注释 掉 用 于 调试 的 print 语 句 ， 不 要 直接 删除 它 。 这 样 做 可 以 让 修改 失败 时 不 必 再 
重新 调试 。 然 后 ， 我 们 添加 一 个 守 折 语句， 检查 是 否 存在 空 单词 ， 如 果 有 的 话 ， 使 用 continue 
语句 跳 到 文件 的 下 一 行 。 


这 里 使 用 了 两 个 continue 语 句 ， 过 滤 出 我 们 感 兴趣 并 希望 继续 义理 的 文本 行 集合 。 没 有 单词 的 
行 不 是 我 们 想 要 的 ， 所 以 跳 到 下 一 行 。 不 是 以 From 开 头 的 行 也 不 符合 要 求 ， 所 以 跳 过 。 

修改 后 的 程序 能 够 成 功 运 行 ， 也 许 它 就 是 正确 的 了 了。 守护 语 句 确实 有 效 地 避免 了 空 行 问题 ， 
但 那 也 许 还 远 远 不 够 ， 当 我 们 编写 程序 的 时 候 ， 编 程 时 我 们 必须 经 常 思考 “那里 可 能 出 问题 
a 


习题 8.2 找 出 以 上 程序 中 哪 一 行 仍然 没有 得 到 有 效 守 扩 。 你 也 可 以 试 着 创建 一 个 导致 程序 运行 
失败 的 文本 文件 ， 然 后 修改 程序 ， 以 确保 每 一 行 都 得 到 了 相应 的 守护 ， 确 保 该 程序 能 够 正确 
处 理 你 创建 的 文本 文件 。 


习题 8.3 重 写 上 例 中 的 守 扩 语句 。 使 用 复合 逻辑 表达 式 ， 在 if 语 句 中 使 用 and 逻 辑 运 算 符 。 


8.15 术语 

别名 : 两 个 或 多 个 变量 指向 同一 个 对 象 的 情形 。 

分 隔 符 : 用 来 确定 字符 串 如 何 被 分 割 的 字符 或 子 字符 串 。 
元 素 : 列表 (或 其 他 序列 ) 中 的 一 个 值 ， 也 称 为 数据 项 。 
等 价 : 拥有 相同 的 值 。 

同一 性 : 同一 个 对 象 ， 可 以 推断 出 等 价 。 

列表 : 一 系列 值 的 序列 。 

列表 静 历 : 按 顺 序 依次 访问 列表 中 的 元 素 。 

启 套 列表 : 一 个 列表 作为 另 一 个 列表 的 一 个 元 素 存在 。 
引用 : 变量 与 其 取 值 之 间 的 关联 。 


8.16 练习 


习题 8.4 从 http://www.py4inf.com/code/romeo.txt 下 载 一 个 文本 文件 。 


编写 一 个 程序 ， 打 开 romeo.txt 文 件 ， 按 行 读 取 。 对 每 一 行使 用 split 函 数 ， 将 其 分 解 成 一 系列 
的 单词 列表 。 对 于 每 一 个 单词 ， 检 查 它 是 否 已 经 存在 于 列表 之 中 ， 若 单词 还 未 出 现在 列表 
中 ， 把 它 添加 进来 。 


程序 运行 结束 ， 按 字母 顺序 输出 最 终 的 单词 清单 。 


Enter file: romeo.txt 
['Arise', 'But', 'It', 'Juliet', 'Who', 'already', 


"and'， 'breaks', 'east', 'envious', 'fair', 'grief', 
Sk Loht emoon pale srek Soft 
'sun', 'the', 'through', 'what', 'window', 


'with', 'yonder'] 


习题 8.5 编写 一 个 程序 ， 读 取 邮 箱 数据 ， 当 遇 到 一 个 以 From 开 头 的 文本 行 ， 使 用 split 函 数 将 该 
行 子 分 解 成 单词 。 我 们 需要 抽取 From 开 头 的 行 中 第 二 个 单词 ， 即 发 信人 。 


From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 


解析 以 From 开 头 的 行 ， 打 印 出 每 行 中 第 二 个 单词 ， 还 可 以 统计 发 信人 数 ， 在 结尾 输出 总 数 。 
下 面 是 程序 运行 结果 的 部 分 输出 : 


python fromcount ,py 

Enter a file name: mbox-short.txt 
stephen.marquard@uct .ac.za 
louis@media.berkeley.edu 
zdqian@umich .edu 


[...some output removed...] 


ray@media.berkeley.edu 

cwen@iupui.edu 

cwen@iupui.edu 

cwen@iupui.edu 

There were 27 lines in the file with From as the first word 


习题 8.6 改写 前 面 那个 提示 用 户 输入 数据 ， 并 在 用 户 输入 “done" 后 ， 输 出 最 大 值 与 最 小 值 的 程 
序 。 编 写 一 个 程序 ， 使 用 列表 储存 用 户 输入 的 数据 ， 在 循环 结束 后 ， 利 用 max() 和 min() 函 数 分 
别 计算 出 最 大 值 和 最 小 值 。 


Enter a number: 6 
Enter a number: 2 
Enter a number: 9 
Enter a number: 3 
Enter a number: 5 
Enter a number: done 


Maximum: 9.0 
Minimum: 2.0 


As 吃 

第 9 革 字典 

字典 很 像 列表 ， 但 更 通用 。 列 表 中 的 索引 位 置 必须 为 整数 ， 而 字典 中 末 引 几乎 可 以 是 任意 类 
型 。 


字典 可 看 作 是 素 引 (这 里 称 为 键 ) 的 集合 与 值 的 集合 之 间 存 在 的 一 种 映射 。 每 个 键 对 应 一 个 
值 ， 键 与 值 之 间 的 关系 称 之 为 键 值 对 ， 有 时 也 称 为 数据 项 。 


举例 来 说 ， 我 们 创建 一 个 "英语 -西班牙 语 "字典 ， 其 中 键 与 值 都 是 字符 串 。 


dict 范 数 可 以 创建 一 个 空 字 典 。 请 注意 ， 由 于 dict 是 一 个 内 置 画 数 名 称 ， 不 能 把 它 用 作 变 量 
名 。 


>>> eng2sp = dict() 
>>> print eng2sp 


{} 


大 括号 人 表示 一 个 空 字典 。 你 可 以 使 用 方 括号 向 字典 里 添加 数据 项 。 


>>> eng2sp['one'] = "uno' 


这 行 语句 创建 了 一 个 从 键 "one" 到 值 “uno" 映 射 的 字典 项 。 如 果 再 次 打印 这 个 字典 ， 我 们 会 看 到 
一 个 键 值 对 ， 键 与 值 之 间 用 冒号 隔 开 。 


>>> print eng2sp 
{'one': 'uno'} 


字典 的 输入 形式 与 输出 形式 是 一 样 的 。 举 例 来 说 ， 你 可 以 创建 一 个 包含 三 个 数据 项 的 字典 : 
>>> eng2sp = {'one': 'uno', 'two': 'dos', 'three': 'tres'} 


但 是 ， 如 果 你 直接 打印 eng2sp， 其 结果 会 出 人 意料 : 


>>> print eng2sp 
{'one': “uno', ‘'three': 'tres', "two': 'dos'} 


输出 的 键 值 对 顺序 发 生 了 改变 。 事 实 上 ， 如 果 你 在 计算 机 上 输入 这 个 字典 ， 得 到 的 输出 结果 
跟 上 面 的 顺序 可 能 也 不 一 样 。 一 般 而 言 ， 字 典 的 顺序 往往 是 不 可 预测 的 。 


即便 如 此 ， 这 不 会 造成 什么 问题 。 因 为 字典 项 并 不 是 用 整数 来 索引 的 ， 而 是 
应 的 值 。 


>>> print eng2sp['two'] 
'dos! 


键 “tWo” 对 应 的 值 是 "dos”， 这 与 字典 项 的 顺序 无 关 。 
如 果 查 找 的 键 不 在 字典 里 ， 你 会 得 到 一 个 异常 提示 : 


>>> print eng2sp['four'] 
KeyError: 'four' 


len 本 数 也 适用 于 字典 ， 它 会 返回 字典 中 键 值 对 的 个 数 。 


>>> len(eng2sp) 
3 


in 操作 符 也 适用 于 字典 ， 它 会 告知 你 查找 的 东西 是 否 作 为 键 存在 于 字典 中 ， 但 不 
作出 很 好 的 判断 。 


>>> "one' in eng2sp 
True 
>>> 'uno' in eng2sp 
False 


为 了 判断 要 找 的 东西 是 否 作为 值 存 在 于 字典 中 ， 使 用 values 方 法 ， 它 会 返 
个 列表 ， 然 后 使 用 in 操作 符 作 出 判断 。 


>>> vals = eng2sp.values() 
>>> "Uno' in vals 


True 


采用 键 来 查找 对 


典 中 所 有 值 的 一 


列表 与 字典 的 in 操作 符 算 法 上 是 有 差别 的 。 在 列表 中 ，Python 采 用 线性 搜索 策略 ， 搜 索 时 间 和 与 
列表 长 度 成 正比 。 在 字典 中 ，Python 采 用 了 一 种 很 有 效 的 哈 希 表 算法 。 这 种 算法 不 管 字典 里 


面 有 多 少数 据 项 ， 时 间 花 费 上 几乎 没有 什么 差别 。 此 处 不 详 述 哈 希 表 的 原理 ， 
请 访问 http://wikipedia.org/wiki/Hash_table。 


更 多 相关 知识 


习题 9.1 编写 一 个 程序 ， 污 取 words.txt 文 件 中 的 单词 ， 将 它们 作为 键 存储 在 字典 中 。 此 时 不 需 
要 关心 键 对 应 的 值 。 然 后 ， 使 用 in 操 作 符 快速 判断 某 一 字符 串 是 否 存 在 于 字典 中 。 


9.1 字典 作为 计数 器 


假设 给 定 一 个 字符 串 ， 你 想 要 知道 其 中 每 个 字符 出 现 的 次 数 ， 以 下 几 种 方式 可 供 选 择 : 


1. 创建 26 个 变量 ， 分 别 记 录 字 和 母 表 中 每 个 字母 出 现 的 次 数 。 然 后 ， 通 历 字符 串 ， 每 遇 到 一 
个 字母 ， 相 应 的 计数 变量 加 1， 或 许可 以 采用 一 个 链 式 条 件 来 实现 。 


2. 创建 一 个 包含 26 个 元 素 的 列表 。 然 后 ， 使 用 Python 内 置 的 ord 范 数 ， 将 每 一 个 字符 转换 成 
数字 ， 把 这 个 数字 作为 索引 存 和 列表， 再 增加 相应 的 计数 变量 。 


3， 创建 一 个 以 字符 为 键 ， 其 出 现 次 数 作为 值 的 字典 。 首 次 遇 到 一 个 字符 ， 将 其 作为 一 个 数 
据 项 添加 到 字典 里 。 之 后 ， 遇 到 字典 里 已 存在 的 数据 项 ， 就 对 其 值 加 1。 


以 上 方法 都 实现 了 相同 的 计算 结果 ， 但 每 种 方法 的 计算 策略 各 不 相同 。 


执行 计算 的 一 种 方式 称 为 实现 (implementation) 。 有 些 实 现 方式 优 于 其 他 实现 方式 。 举 例 来 
说 ， 字 典 实 现 的 一 个 优点 在 于 ， 我 们 不 必 事 先知 道 字符 串 中 出 现 了 哪些 字母 ， 只 需 为 确实 会 
出 现 的 字母 分 配 空间 就 好 了 。 


下 面 是 一 段 示例 代码 : 


word = 'brontosaurus' 
d = dict() 
for c in word: 
if c not in d: 
d[c] = 1 
else: 
d[c] = d[c] + 1 
print d 


我 们 可 以 有 效 地 计算 出 直方 图 。 直 方 图 是 关于 计数 器 (频次 ) 的 统计 术语 。 


用 for 循 环 通 万 字符 串 。 每 次 循环 时 ， 如 果 字 符 c 不 在 字典 中 ， 我 们 就 创建 一 个 字典 项 ， 以 c 为 
键 ， 初 始 值 1 (表示 这 个 字母 至 此 出 现 了 一 次 ) 。 如 果 c 已 经 存在 于 字典 中 ， 只 需 将 对 应 值 d[c] 
加 1 即 可 。 


程序 运行 结果 如 下 : 


ee pe eo ec Ds OR 2 NT 2 Ue  2 ICH 


直方 图 表示 字母 “9” 和 “b” 分 别 出 现 了 一 次 ,“C" 出 现 了 两 次 ， 后 面 的 键 值 对 含义 类 似 ， 不 再 详 


Le] 


A 
~ 
一 


字典 有 一 个 get 方 法 ， 该 方法 拥有 一 个 键 和 一 个 默认 值 。 如 果 键 出 现在 字典 中 ， 那 么 它 会 返回 
此 键 对 应 的 值 。 如 果 键 不 在 字典 中 ， 返 回 事先 给 定 的 默认 值 。 示 例 程序 如 下 : 


>>> counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100} 
>>> print counts.get('jan', 0) 


>>> print counts.get('tim', 0) 


我 们 使 用 get 方 法 可 以 把 直方 图 循环 写 得 更 简洁 。 因 为 get 方 法 自动 处 理 了 键 不 在 字典 中 的 情 
况 。 这 样 的 话 ， 代 码 的 4 条 语句 可 缩减 至 1 条 ， 还 可 以 去 掉 if 语 句 。 


word = 'brontosaurus' 
d = dict() 
for c in word: 
d[c] = d.get(c,0) + 1 
print d 


使 用 get 方 法 简化 计数 循环 的 做 法 已 经 成 为 Python 中 的 一 种 普通 做 法 ， 本 书后 续 章 节 会 多 次 用 
到 。 因 此 ， Ia 
现 同样 的 目的 ， 但 是 后 者 更 加 简洁 。 


- 


9.2 字典 与 文件 


字典 的 常见 用 法 之 一 是 对 书面 文字 的 文本 文件 进行 词 频 统计 。 首 先 ， 我 们 从 《罗密欧 与 朱 丽 
叶 》 中 抽取 一 段 简单 的 文本 ， 参 照 


http://shakespeare.mit.edu/Tragedy/romeoandjuliet/romeo_juliet.2.2.html。 


由 于 刚 开始 接触 ， 我 们 使 用 不 包含 标点 符号 的 简化 后 的 短文 本 。 随 后 会 介绍 包含 标点 符号 的 
文本 处 理 方法 。 


But soft what light through yonder window breaks 
It is the east and Juliet is the sun 

Arise fair sun and kill the envious moon 

Who is already sick and pale with grief 


编写 一 个 Python 程序 ， 读 取 上 述 文 件 的 每 一 行 ， 并 将 每 一 行 分 解 为 由 单词 组 成 的 一 个 列表 。 
然后 ， 通 万 每 个 单词 ， 使 用 字典 来 统计 每 个 单词 的 出 现 次 数 。 


你 可 以 看 到 ， 这 上段 程序 包含 两 个 for 循 环 ， 外 部 循环 用 来 读 取 文 件 中 每 一 行 ， 内 部 循环 迭代 出 
该 行 的 每 一 个 单词 。 这 就 是 所 谓 的 谋 套 循环 ， 其 中 一 个 为 外 部 循环 ， 另 一 个 为 内 部 循环 。 


由 于 外 部 循环 每 迭代 一 次 ， 内 部 循环 都 会 执行 它 全 部 的 迭代 。 基 于 这 一 点 ， 我 们 认为 内 部 循 
环比 外 部 循环 迭代 地 "更 快 ”。 


两 个 谋 套 循环 的 组 合 确 保 了 输入 文件 的 每 一 行 的 每 个 单词 都 会 被 统计 到 。 


fname = raw_input(' Enter the file name: ') 
try: 
fhand = open(fname) 
except: 
print 'File cannot be opened:', fname 
exit() 


counts = dict() 
for line in fhand: 
words = line.split() 
for word in words : 
if word not in counts: 
counts[word] = 1 
else: 
counts[word] += 1 


print counts 


运行 程序 ， 生 成 一 个 包含 全 部 计数 的 原始 文件 ， 输 出 没有 排序 的 哈 希 序列 。romeo.txt 文 件 可 


24 大 日 


在 http://www.py4inf.com/code/romeo.txt 获 得 。 


python count1.py 

Enter the file name: romeo.txt 

{'and': 3, ‘envious': 1, ‘'already': 1, 'fair': 1, 

“Is 2 3, through 1, "pale':; 1, "yonder': 1, 

'what': 1, 'sun': 2, 'Who': 1, 'But': 1, 'moon': 1, 
'window': 1, 'sick': 1, 'east': 1, 'breaks': 1, 
OICGTei wit ghee et ALSe el 
kl the ro Sore JUuliet 二 


通过 字典 找到 出 现 最 多 的 单词 及 其 次 数 ， 并 不 是 那么 方便 。 因 此 ， 我 们 需要 增加 一 些 Python 
代码 ， 以 便 输出 更 有 用 的 信息 。 


9.3 循环 与 字典 


如 果 在 for 语 句 中 把 字典 看 做 一 个 待 循环 的 序列 ， 它 会 静 历 字典 中 的 每 一 个 键 。 下 面 的 循环 输 
出 每 一 个 键 及 其 对 应 的 值 : 


counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100} 
for key in counts: 
print key, counts[key!] 


程序 运行 结果 如 下 : 


jan 100 
chuck 1 
annie 42 


再 次 强调 ， 字 典 中 的 键 是 没有 固定 顺序 的 。 


我 们 可 以 将 这 种 模式 应 用 到 之 前 介绍 的 循环 的 各 种 常用 方法 。 例 如 ， 如 果 想 要 找到 字典 中 所 
有 值 大 于 10 的 记录 ， 程 序 代码 如 下 : 


counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100} 
for key in counts: 
If counts[key] > 10 : 
print key，counts[key] 


for 循 环 是 通过 字典 的 键 进行 迭代 。 因 此 ， 我 们 必须 使 用 索引 操作 符 来 检索 相对 应 的 值 。 程 序 
运行 的 输出 结果 如 下 : 


jan 100 
annie 42 


我 们 只 看 到 了 值 大 于 10 的 记录 。 


ey 将 所 有 的 键 放 入 一 个 列 
表 。 然 后 ， 对 这 个 列表 进行 排序 ， 对 排序 后 的 列表 进行 迭代 。 依 照 字 母 顺序 ， 通 过 每 个 键 输 
出 对 应 的 键 值 对 : 


counts = { "chuck' : 1 , 'annie' : 42, 'jan': 100} 
lst = counts.keys() 
print lst 
lst.sort() 
for key in lst: 
print key, counts[key] 


程序 运行 的 输出 结果 如 下 : 


['jan', 'chuck', 'annie'] 
annie 42 
chuck 1 
jan 100 


首先 ， 通 过 keys 方 法 得 到 了 包含 键 的 未 排序 的 列表 。 然 后 ， 通 过 for 循 环 得 到 有 序 的 键 值 对 。 


9.4 高 级 文本 解析 


上 面 示例 程序 用 到 的 romeo.txt 文 件 是 我 们 手动 删除 所 有 标点 符号 之 后 得 到 的 尽 可 能 简化 的 文 
本 。 实 际 的 文本 会 包含 大 量 标点 符号 ， 如 下 所 示 : 


But, soft! what light through yonder window breaks? 
It is the east，and Juliet is the sun. 

Arise, fair sun, and kill the envious moon, 

Who is already sick and pale with grief, 


Python 的 split 函 数 可 以 识别 空格 ， 把 词汇 看 作 是 由 空格 分 隔 开 来 的 词 单元 ， 所 

以 , “soft" 和 ”soft 会 被 视 为 不 同 的 词 江 ， 分 别 为 它们 创建 一 个 字典 项 。 

由 于 文本 中 还 存在 大 写 , “who" 和 "Who" 也 是 不 同 的 词 ， 分 别 进行 统计 。 

通过 字符 串 的 lower、punctuation 与 translate 方 法 可 以 解决 上 述 问题 。 其 中 translate 是 最 精细 
的 方法 。 以 下 是 translate 的 说 明文 档 : 

string.translate(s, tablel, deletechars]) 


首先 ， 从 s 中 删除 qeletechars 参 数 (如 果 存 在 的 话 ) 指定 的 所 有 字符 ， 然 后 使 用 table 参 数 来 翻 
译 字符 。table 是 一 个 256 个 字符 长 的 字符 串 ， 用 来 翻译 每 个 字符 值 ， 并 按照 序数 进行 索引 。 如 
果 妇 ble 是 None 值 ， 只 会 执行 字符 删除 步骤 。 


这 里 不 指定 table 参 数 ， 用 deletechars 参 数 来 删除 所 有 标点 符号 。Python 甚 至 可 以 告诉 我 们 ， 
标点 符号 包括 哪些 字符 : 


>>> Import string 
>>> string.punctuation 
IM#B%&N' ()*+, -Ai<=>2@[\\]^A {|}~! 


我 们 对 程序 做 出 如 下 修改 : 


import string # New Code 


fname = raw_input('Enter the file name: ') 
try: 
fhand = open(fname) 
except: 
print 'File cannot be opened:', fname 
exit() 


counts = dict() 
for line in fhand: 
line = line.translate(None, string.punctuation) # New Code 
line = line.lower() # New Code 
words = line.split() 
for word in words: 
if word not in counts: 
counts[word] = 1 
ese 
counts[word] += 1 


print counts 


我 们 使 用 translate 方 法 删除 了 所 有 的 标点 符号 ， 并 将 每 一 行 中 的 字母 转换 为 小 写 。 程 序 主体 并 
未 发 生 改变 。 请 注意 ，Python2.5 及 早期 版 本 中 ，translate 方 法 不 接受 None 值 作为 第 一 个 参 
数 ， 因 此 使 用 下 面 的 代码 来 调用 该 方法 : 


print a.translate(string.maketrans(' ',' '), string.punctuation 


懂得 一 些 "Python 的 艺术 和”“ 像 Python 一 样 思考 "”， 不 难 发 现 Python 为 许多 常见 数据 分 析 问 题 内 
置 了 解决 方案 。 随 着 学 习 的 深入 ， 通 过 大 量 的 示例 代码 和 技术 文档 的 阅读 ， 你 会 知道 去 哪里 
寻找 别人 是 否 用 Python 已 经 解决 了 此 类 问题 ， 从 而 减轻 一 些 你 的 工作 。 


以 程序 运行 的 部 分 输出 结果 如 下 : 


Enter the file name: romeo-full.txt 

(swearst 1, “all’: 6, afeard 1, “leave": 2, "these’: 2, 
'kinsmen': 2, 'what': 11, 'thinkst': 1, 'love': 24, 'cloak': 1, 
a': 24, 'orchard': 2, 'light': 5, 'lovers': 2, 'romeo': 40, 
'maiden': 1, 'whiteupturned': 1, 'juliet': 32, 'gentleman': 1, 
lt 22 leans TD canst Lo havange .1 


查看 这 些 输出 仍然 很 费事 ， 让 Python 来 帮助 我 们 找到 具体 要 找到 的 信息 。 要 做 到 这 一 点 ， 我 
们 需要 学 习 Python 的 元 组 。 在 学 习 元 组 时 会 继续 使 用 这 个 例子 。 


9.5 调试 


当 需 要 处 理 更 大 的 数据 集 时 ， 手 工 输出 与 检查 数据 显得 不 那么 现实 了 。 以 下 是 调试 大 数据 集 
的 一 些 建议 : 


减少 输入 : 尽 可 能 地 减少 数据 量 的 大 小 。 例 如 ， 程 序 读 取 一 个 文本 文件 ， 仅 选择 前 十 行 ， 或 
者 选择 最 小 的 示例 。 你 可 以 编辑 文件 本 身 ， 或 者 修改 程序 ， 让 它 只 读 取 文件 的 前 n 行 。 后 一 种 
方式 更 好 一 些 。 


当 出 现 错误 时 ， 通 过 不 断 地 减 小 n 值 来 确定 错误 的 位 置 。 当 找到 错误 并 纠正 后 ， 再 不 断 增 大 n 
值 。 


检查 摘要 与 类 型 : 不 要 对 整个 数据 集 进行 输出 和 检查 ， 可 以 考虑 先 输出 数据 的 摘要 。 例 如 ， 
字典 的 数据 项 个 数 ， 或 数字 列表 的 总 数 。 


运行 错误 的 一 个 常见 原因 是 数据 类 型 不 正确 。 调 试 此 类 错误 ， 通 常 输 出 这 个 值 的 类 型 就 可 以 
解决 了 。 


编写 自 检 程序 : 有 时 通过 编写 代码 来 自动 检查 错误 。 例 如 ， 需 要 计算 数字 列表 的 平均 数 ， 你 
可 以 检查 这 个 结果 是 不 是 处 于 列表 的 最 大 值 与 最 小 值 之 间 。 这 种 检查 称 为 “逻辑 检查 ”， 它 会 检 
测 出 哪些 结果 是 完全 不 符合 逻辑 的 。 


另 一 种 检查 是 比较 两 种 不 同 计算 的 结果 ， 检 查 它们 是 否 一 致 。 这 种 检查 称 为 “一 致 性 检查 ”。 
工整 化 输出 结果 : 对 调试 的 输出 结果 进行 格式 化 ， 这 有 助 于 发 现 错误 。 
再 次 强调 ， 在 程序 架构 上 花 些 心思 能 有 效 减少 调试 的 时 间 花 费 。 


9.6 术语 

字典 : 一 组 键 及 其 对 应 值 的 映射 。 

哈 希 表 : Python 字典 的 实现 算法 。 

哈 希 画 数 : 使 用 哈 希 表 来 计算 字典 中 键 的 位 置 的 汞 数 。 
直方 图 : 一 组 计数 器 。 

实现 : 执行 计算 的 一 种 方法 。 

数据 项 : 键 值 对 的 另 一 种 说 法 。 

键 : 字典 中 键 值 对 的 第 一 部 分 对 象 。 

键 值 对 : 从 键 到 值 的 映射 关系 表达 。 

查找 : 字典 的 一 种 操作 ， 根 据 键 找到 对 应 的 值 。 


岩 套 循环 : 一 个 循环 内 部 包括 另 一 个 或 多 个 循环 。 外 部 循环 每 执行 一 次 ， 内 部 循环 会 全 部 执 
行 一 通 。 


值 : 字典 中 键 值 对 的 第 二 部 分 对 象 。 这 里 所 说 的 值 比 之 前 提 到 的 “ 取 值 "更 加 专 指 。 


9.7 练习 


习题 9.2 编写 一 个 程序 ， 按 照 接收 的 星期 时 间 对 邮件 进行 分 类 。 首 先 ， 找 出 以 From 开 头 的 文 
本 行 ， 然 后 ， 取 出 符合 条 件 的 每 一 行 中 的 第 三 个 单词 ， 使 用 一 个 计数 器 统计 一 周 中 每 一 天 邮 
件 被 接收 的 次 数 。 在 程序 的 末尾 ， 输 出 字典 的 内 容 〈 不 要 求 次 序 ) 。 


Sample Line: 
From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 


Sample Execution: 

python dow.py 

Enter a file name: mbox-short.txt 
E20 Tu SaAte 


习题 9.3 编写 一 个 程序 ， 读 取 邮 件 日 志 ， 使 用 字典 来 创建 一 个 直方 图 ， 统 计 每 个 邮箱 发 出 的 邮 
件数 量 ， 然 后 输出 字典 。 


Enter file name: mbox-short.txt 

{'gopal.ramasammycook@gmail.com': 1, 'louis@media.berkeley.edu': 3, 
'cwen@iupui.edu': 5, 'antranig@caret.cam.ac.uk': 1, 
'rjloweQ@iupui.edu': 2, 'gsilver@umich.edu': 3, 
'david.horwitz@uct.ac.za': 4, 'wagnermr@iupui.edu': 1, 
'zqian@umich.edu': 4, 'stephen.marquard@uct.ac.za': 2, 
'ray@media.berkeley.edu': 1} 


习题 9.4 在 上 述 程序 中 添加 代码 ， 从 文件 中 找 出 谁 的 邮件 最 多 。 读 取 完 所 有 数据 并 且 建 立 字 
典 之 后 ， 使 用 最 大 循环 〈 详 见 5.7.2) 对 字典 进行 表 历 ， 找 出 谁 的 邮件 最 多 ， 并 输出 他 的 邮件 
总 数 。 


Enter a file name: mbox-short.txt 
cwenQ@iupui.edu 5 


Enter a file name: mbox .txXt 
zdqianQ@umich,edu 195 


习题 9.5 编写 一 个 程序 ， 记 录 邮 件 发 送 者 的 域名 ， 而 不 是 邮件 发 送 者 的 邮件 地 址 。 在 程序 的 末 
尾 ， 输 出 字典 的 内 容 。 


python Schoolcount ,py 

Enter a file name: mbox-short.txt 

{'media.berkeley.edu': 4, 'uct.ac.za': 6, 'Uumich.edu': 7, 
'gmail.com': 1, 'caret.cam.ac.uk': 1, 'iupui.edu': 8} 


第 10 章 元 组 
10.1 元 组 是 不 可 变 的 


元 组 1 是 由 若干 值 组 成 的 一 个 序列 ， 与 列表 非常 相似 。 元 组 中 存储 的 值 可 以 是 任何 数据 类 型 并 
拥有 整数 型 素 引 。 元 组 的 一 个 重要 特征 是 不 可 变 的 。 元 组 可 以 进行 比较 和 使 用 哈 希 算法 ， 我 
们 可 以 对 其 进行 排序 ， 在 Python 字典 中 ， 使 用 元 组 作为 键 值 。 


>>> t= Cl 
元 组 用 圆 括号 括 起 来 ， 虽 然 这 不 是 必需 的 ， 但 可 以 帮助 我 们 在 Python 代码 中 快速 识别 出 哪些 
是 元 组 。 


SSStes (au Do ureyy cl ey) 


创建 单个 元 素 的 元 组 ， 必 须 在 末尾 加 一 个 皖 号 。 


>>> t1 = ('a',) 
>>> type(t1) 
<type 'tuple'> 


如 果 没有 逗号 ，Python 会 将 (' a ') 作 为 一 个 字符 串 处 理 : 


>>> t2 = ('a') 
>>> type(t2) 
<type 'str'> 


构造 元 组 的 另 一 种 方法 是 ， 使 用 内 置 函 数 tuple。 如 果 不 带 参数 ，tuple 画 数 会 创建 一 个 空 元 
组 


>>> t = tuple() 
>>> print t 


() 


如 果 参 数 是 一 个 序列 (字符 串 、 列 表 或 元 组 ) ，tuple 画 数 的 调用 结果 是 产生 一 个 包含 序列 元 
素 的 元 组 : 


>>> t = tuple('lupins') 
>>> print t 
(Ge WU oD 本 这 ne -S30) 


由 于 tuple 是 构造 器 的 名 称 ， 应 避免 将 其 用 作 变 量 名 。 
大 部 分 的 列表 操作 符 也 适用 于 元 组 。 方 括号 索引 一 个 元 素 : 
> (a oe, 


>>> print t[0] 
a ls 


切片 操作 符 选 择 一 组 元 素 。 


>>> print t[1:3] 
(Di Ce) 


但 是 ， 如 果 尝 试 修改 元 组 中 的 元 素 ， 会 得 到 一 个 错误 : 


>>> t[0] = 'A' 
TypeError: object doesn't support item assignment 


不 能 修改 元 组 的 元 素 ， 但 可 以 用 另 一 个 元 组 蔡 换 当前 元 组 : 


>> (A tl 
>>> print t 
(GAR oi SC Sob 'e') 


10.2 元 组 的 比较 


比较 运算 符 适 用 于 元 组 和 其 它 序列 ，Python 从 每 个 序列 的 第 一 个 元 素 开始 比较 。 如 果 它 们 相 
等 ， 继 续 比 较 下 一 个 元 素 ， 以 此 类 推 ， 直 到 找到 不 同 的 元 素 。 找 到 不 同 元 素 之 后 ， 随 后 的 元 
素 就 不 再 考虑 了 (即便 它们 真得 很 大 ) 。 


>>> (9, 1, 2) < (9，3，4) 

True 

>>> (9，1，2000000) < (0, 3, 4) 
True 


元 组 中 sort 函 数 正 是 这 个 工作 原理 。 它 首先 对 第 一 个 元 素 排序 ， 如 果 第 一 个 元 素 相 同 ， 则 按 第 
二 个 元 素 排序 ， 以 此 类 推 。 


这 一 特性 使 其 拥有 一 种 DSU 模 式 : 

修饰 (Decorate) : 修饰 : 在 序列 的 元 素 之 前 放置 一 个 或 多 个 排序 键 ， 
排序 (Sort) : 使 用 Python 内 置 函 数 sort 进 行 排序 ， 

去 修饰 (Undecorate) : 提取 出 序列 中 已 排序 的 元 素 。 

举例 来 说 ， 有 一 组 单词 ， 对 它们 进行 由 长 到 短 的 排序 : 


txt = 'but soft what light in yonder window breaks， 
words = txt.split() 
t = list() 
for word in words: 
t.append( (len(word), word)) 
t.sort(reverse=True) 
res = list() 
for length, word in t: 


res.append(word) 


print res 


第 一 个 循环 创建 了 一 个 元 组 ， 每 个 元 组 包括 单词 及 长 度 ， 单 词 长 度 在 前 ， 单 词 在 后 。 


sort 范 数 进 行 两 两 比较 ， 首 先 比 较 单词 长 度 ， 如 果 长 度 相等 ， 则 上 比较 元 组 中 的 第 二 个 元 素 。 关 
键 字 参数 reverse=True 指 定 sort 函 数 按照 倒序 排列 。 


第 二 个 循环 过 历 了 元 组 ， 创 建 了 一 个 按照 长 度 降序 排列 的 单词 列表 。 这 五 个 单词 按照 反 向 字 
母 顺序 排序 ， 所 以 “what" 出 现在 “soft* 之 前 。 


程序 输出 结果 如 下 : 


['yonder', 'window', 'breaks', 'light', "what '， 
SO 人 EeeaDUEO nal 


当然 ， 这 一 行文 字 被 转换 为 Python 列表 ， 并 按照 单词 长 度 降序 排列 之 后 ， 它 就 失去 了 原 有 的 
诗歌 意味 2。 


10.3 元 组 的 赋值 


Python 语言 的 一 个 独特 句法 特征 是 ， 元 组 可 以 出 现在 赋值 语句 的 左 侧 。 当 左 侧 是 一 个 序列 
时 ， 一 次 可 以 为 多 个 变量 赋值 。 


在 本 例 中 ， 一 个 列表 (序列 ) 包含 两 个 元 素 。 使 用 一 行 语句 ， 将 第 一 个 元 素 和 第 二 个 元 素 分 
别 赋予 变量 x 和 变量 y。 


>>>m= [ 'have', 'fun' ] 
>>> x, y= m 

>>> x 

'have' 

>>> y 

"fun 

S33 


这 不 是 魔法 ，Python 会 大 致 翻译 元 组 的 赋值 语法 ， 如 下 所 示 : 3 


[ 'have', 'fun' ] 
m[9] 
m[1] 


从 文体 上 看 ， 在 赋值 语句 左 侧 使 用 元 组 ， 我 们 忽略 了 括号 ， 以 下 是 有 效 的 等 价 语法 : 


>>>m= [ 'have', 'fun' ] 
>>> (x, y) = m 

S>>°xX 

"have' 

>>> y 

“fun 

>>> 


元 组 赋值 有 一 个 特别 巧妙 的 用 途 ， 可 以 在 一 条 语句 中 交换 两 个 变量 的 值 : 
>>> a, b= b, a 
这 条 语句 两 侧 都 是 元 组 ， 左 侧 是 变量 元 组 ， 右 侧 是 表达 式 元 组 。 右 侧 的 每 个 值 分 别 赋予 左 侧 
的 每 个 变量 。 右 侧 的 所 有 表达 式 在 赋值 之 前 进行 检查 。 
左 侧 的 变量 个 数 与 右 侧 的 值 个 数 必 须 相同 : 


>>>°a 0 123 
ValueError: too many values to unpack 


普 静 的 情况 是 ， 右 侧 可 以 是 任何 类 型 的 序列 ， 如 字符 串 、 列 表 或 元 组 。 例 如 ， 将 邮件 地 址 
拆 分 成 用 户 名 与 域名 的 程序 代码 如 下 : 


>>> addr = "monty@python,org 
>>> uname, domain = addr.split('@') 


split 的 返回 值 是 包含 两 个 元 素 的 列表 。 第 一 个 元 素 是 uname， 第 二 个 元 素 是 domain。 


>>> print uname 
monty 
>>> print domain 


python.org 


10.4 字典 与 元 组 


元 组 拥有 items 方 法 ， 该 方法 返回 元 组 列表 ， 每 个 元 组 是 一 个 键 值 对 4。 


>>>°d = {asi Db :1 C22) 
>>> t = d.items() 
>>> print t 


[('a', 10), ('c', 22), ('b', 1)] 


如 果 是 字典 的 话 ， 其 中 的 数据 项 是 没有 特定 顺序 的 。 


由 于 元 组 列表 本 身 是 一 个 列表 ， 元 组 之 间 可 以 进行 比较 ， 以 及 对 元 组 列表 进行 排序 。 将 字典 
转化 为 元 组 列表 ， 这 样 可 以 根据 键 对 字典 进行 排序 ， 并 输出 字典 的 内 容 。 


>>> d a LO Dl 22 


d.items() 


> 
之 之 过 时 
ErasesETOD) CS 22)7( bd 
>>> t,Sort() 

过 之 过 和 


[('a', 46), ('b', 4), ('c', 22)] 
新 的 列表 根据 键 值 以 字母 升序 排列 。 


10.5 通过 字典 进行 多 个 赋值 


将 items 方 法 、 元 组 赋值 与 for 循 环 结合 起 来 ， 你 可 以 拥有 一 个 良好 的 代码 模式 ， 使 用 单 循环 就 
可 以 通 历 字典 中 的 键 与 值 。 


for key, val in d.items(): 
print val, key 


这 个 循环 中 存在 两 个 迭代 变量 。 由 于 items 返 回 一 个 元 组 列表 ， 变 量 key 和 val 通 过 字典 的 键 值 
对 进行 迭代 ， 继 而 得 到 赋值 。 


循环 中 的 每 次 迭代 都 会 使 得 key 和 value 被 赋予 下 一 个 字典 键 值 对 【仍然 以 哈 希 顺序 ) 。 
此 循环 的 输出 结果 如 下 : 


10 a 
22°C 
1 b 


再 次 强调 ， 这 是 哈 希 键 顺序 ， 也 就 是 没有 特定 顺序 。 
全 
= 


将 两 种 方法 结合 ， 按 照 每 个 键 值 对 中 的 值 来 排序 ， 输 出 字典 的 内 容 。 


要 做 到 这 一 点 ， 首 先 创 建 一 个 元 组 列表 ， 其 中 每 个 元 组 为 (value, key)。 通 过 items 方 法 得 到 
(key, value) 元 组 列表 。 此 时 ， 我 们 想 要 根据 value 排 序 ， 而 不 是 key。(value, key) 元 组 列表 一 
且 生 成 ， 排 序 就 变 得 简单 了 ， 按 照 反 向 次 序 对 列表 排序 ， 输 出 已 排序 的 新 列表 。 

>>> d IO ho lly CCH 0 
list() 
>>> for key, val in d.items() : 


>>> 


1.append( (val, key) ) 
之 之 六 关中 
a 


>>> 1.sort(reverse=True) 
>>> 


[(22, 'c'), (10, 'a'), (1, 'b')] 
>>> 


创建 元 组 列表 时 要 非常 着 慎 ， 确 保 每 个 元 组 的 第 一 个 元 素 是 值 ， 这 样 就 能 对 元 组 列表 进行 排 
序 ， 获 得 所 需 的 字典 内 容 ， 该 字典 已 按 值 进行 排序 。 


10.6 高 频 词汇 


回头 看 看 前 面 介 绍 的 单词 统计 程序 ， 文 本 取 自 《罗密欧 于 朱丽叶 》 的 第 二 幕 第 二 场 。 现 在 ， 
我 们 扩充 这 个 程序 ， 输 出 文本 中 出 现 次 数 最 多 的 前 十 个 单词 ， 代 码 如 下 所 示 : 


Import string 
fhand = open( "romeo-fu]l1.txt') 
counts = dict() 
for line in fhand: 
line = line.translate(None, string.punctuation) 
line = line.lower() 
words = line.split() 
for word in words: 
if word not in counts: 
counts[word] = 1 
else: 
counts[word] += 1 


# Sort the dictionary by value 

lst = list() 

for key, val in counts.items(): 
lst.append( (val, key) ) 


lst.sort(reverse=True) 


for key, val in lst[:10] : 
print key, val 


程序 的 第 一 部 分 读 取 文件 ， 计 算出 文档 中 每 个 单词 出 现 的 次 数 ， 将 单词 及 其 出 现 次 数 放 入 字 
典 中 。 这 部 分 程序 不 做 修改 。 之 前 输出 变量 count 的 值 之 后 ， 程 序 就 结束 了 ， 这 里 我 们 创建 一 
个 (val, key) 元 组 列表 ， 按 照 逆序 对 列表 进行 排序 。 


由 于 元 组 中 值 是 第 一 个 元 素 ， 所 以 它 被 用 于 比较 。 如 果 多 个 元 组 拥有 相同 的 值 ， 接 下 来 检查 
元 组 的 第 二 个 元 素 〈 键 ) 。 因 此 ， 如 果 值 相同 ， 元 组 将 按照 键 的 字母 顺序 进行 排序 。 


在 程序 末尾 ， 我 们 写 了 一 个 for 循 环 ， 实 现 多 个 赋值 的 迭代 ， 通 过 列表 切片 操作 (lst[:10]) ， 
迭代 输出 前 十 个 高 频 词汇 。 


至 此 ， 程 序 的 输出 看 上 去 符合 我 们 想 要 的 词 频 分 析 结 果 。 


61 i 

42 and 

40 romeo 
34 to 

34 the 
32 thou 
32 juliet 
30 that 
29 my 

24 thee 


事实 上 ， 如 此 复杂 的 数据 解析 与 分 析 只 需 19 行 易于 理解 的 Python 代 码 就 解决 了 。 这 就 是 
Python 语言 用 于 信息 分 析 的 明智 选择 依据 之 一 。 


10.7 在 字典 中 使 用 键 作 为 元 组 
元 组 可 以 使 用 哈 希 算法 排序 ， 但 列表 不 可 以 。 如 果 我 们 想 在 字典 中 创建 一 个 组 合 键 ， 那 么 必 
须 使 用 元 组 作为 键 。 


假设 创建 一 个 电话 号 码 短 ， 包 含 姓名 与 电话 号 码 的 对 应 关系 ， 那 么 就 会 用 到 组 合 键 。 若 已 经 
定义 了 变量 last、first 与 Nwmber， 字 上 典 赋值 语句 如 下 : 


directory[last,first] = number 


方 括号 里 的 表达 式 是 一 个 元 组 。 在 for 循 环 中 使 用 元 组 赋值 来 通 历 这 个 字典 。 


for last, first in directory: 
print first, last, directory[last,first] 


这 个 循环 通 历 了 directory 中 的 键 ， 这 里 的 键 是 元 组 。 它 给 每 个 元 组 的 元 素 赋 予 变量 last 和 
first， 然 后 打印 出 姓名 与 对 应 的 电话 号 码 。 


10.8 序列 : 字符 串 、 列 表 与 元 组 一 一 哦 ， 这 么 


多 ! 
此 处 的 重点 是 元 组 列表 ， 但 本 章 几 乎 所 有 示例 都 可 以 用 于 列表 的 列表 ， 元 组 的 元 组 以 及 列表 
的 元 组 。 为 避免 列举 过 多 ， 有 时 为 方便 统称 为 序列 的 序列 。 


在 许多 情况 下 ， 不 同类 型 的 序列 (字符 串 、 列 表 和 与 元 组 ) 之 间 可 以 互 换 使 用 。 既 然 这 样 ， 为 
什么 要 选择 这 一 种 序列 而 不 用 其 他 序列 ? 另外 ， 如 何 选择 合适 的 序列 呢 ? 


从 最 明显 的 字符 串 说 起 ， 由 于 字符 串 元 素 只 能 是 字符 ， 所 以 它 比 其 他 序列 的 局 限 性 更 大 。 另 
外 ， 字 符 串 是 不 可 改变 的 。 如 果 需 要 在 字符 串 中 修改 字符 ， 而 不 是 新 建 一 个 字符 串 ， 那 么 可 
能 需要 使 用 字符 列表 。 


列表 比 元 组 更 为 常见 ， 主 要 是 因为 列表 是 可 变 的 。 以 下 情况 可 能 更 适合 元 组 : 


某 些 情 况 下 ， 例 如 return 语 句 ， 它 创建 元 组 的 语法 比 创建 列表 的 要 简单 。 另 一 些 情 况 下 ， 可 能 
列表 更 合适 。 


如 果 使 用 序列 作为 字典 的 键 ， 那 么 必须 使 用 不 可 变 类 型 ， 如 元 组 或 字符 串 。 
如 果 将 序列 作为 参数 传递 给 函数 ， 那 么 使 用 元 组 会 减少 由 于 别名 带 来 意外 情况 的 可 能 。 


因为 元 组 是 不 可 变 的 ， 所 以 没有 sort 和 reverse 这 类 可 以 修改 已 有 列表 的 方法 。 然 而 ，Python 
提供 了 内 建 画 数 sorted 与 reversed， 将 任 一 序列 作为 参数 输入 ， 之 后 返回 一 个 元 素 相 同 但 次 序 
不 同 的 新 序列 。 


10.9 调试 


列表 、 字 典 与 元 组 通常 被 称 为 数据 结构 。 本 章 中 我 们 见识 到 了 复合 数据 结构 ， 例 如 ， 元 组 列 
表 ， 以 元 组 为 键 、 列 表 为 值 的 字典 。 复 合 数据 结构 是 有 用 的 ， 但 容易 出 现形 状 错误 ， 即 由 于 
数据 结构 的 类 型 、 大 小 或 组 成 出 错 所 致 ， 亦 或 编写 代码 时 由 于 忘记 数据 类 型 导致 出 错 。 


举例 来 说 ， 如 果 列 表 包 含 一 个 整数 ， 给 出 一 个 不 在 列表 里 的 其 他 整数 ， 这 就 不 起 作用 。 
调试 程序 时 ， 如 果 遇 到 困难 ， 可 以 党 试 以 下 四 种 方法 : 
阅读 : 检查 代码 ， 仔 细 阅 读 ， 验 证 代码 是 否 按照 你 的 意愿 执行 。 


运行 : 通过 修改 代码 进行 实验 ， 运 行 不 同 版 本 的 代码 。 通 常 ， 程 序 在 正确 的 地 方 显示 了 正确 
的 东西 ， 那 么 程序 显而易见 ， 但 有 时 候 得 花 些 时 间 来 构建 程序 的 支架 。 


沉思 : 花 一 些 时 间 去 思考 ! 错误 类 型 究竟 是 什么 ? 语法、 执行 时 或 语义 ?从 错误 消息 或 程序 
输出 中 能 得 到 什么 信息 ?什么 样 的 错误 类 型 会 导致 你 正 遇 到 的 问题 ?在 问题 出 现 之 前 ， 最 后 
一 次 你 做 了 什么 ? 


回 退 : 某 些 时 候 最 好 的 办 法 是 回 退 ， 撤 销 最 近 的 修改 ， 退 回 到 程序 可 以 正常 工作 和 你 能 够 理 
解 的 状态 。 之 后 开始 重建 。 


编程 新 手 有 时 会 陷 在 这 些 活动 之 中 ， 忘 记 其 他 事情 。 每 种 活动 都 有 自身 的 故障 模式 。 


举例 来 说 ， 如 果 程 序 存 在 输入 错误 ， 只 要 问题 不 是 概念 上 的 误解 ， 阅 读 代 码 就 可 以 解决 。 如 
果 不 明 白 程序 做 了 什么 ， 即 使 阅读 100 表 也 看 不 到 错误 ， 因 为 错误 就 在 你 的 脑袋 里 。 


运行 实验 可 以 提供 帮助 ， 特 别 是 一 些小 型 简单 的 测试 。 然 而 ， 如 果 你 没有 经 过 思考 或 仔细 阅 
读 代码 就 运行 实验 ， 那 么 可 能 会 陷入 一 种 “随机 游 走 编程 "模式 ， 也 就 是 说 通过 随机 修改 ， 直 到 
程序 正确 执行 。 毫 无 疑问 ， 随 机 游 走 编程 会 花费 很 长 时 间 。 

你 必须 花 时 间 去 思考 。 调 试 就 像 一 门 实验 科学 。 你 应 该 至 少 有 一 个 关于 问题 的 假说 。 如 果 存 
在 两 个 或 更 多 可 能 时 ， 试 着 考虑 用 测试 去 消除 其 中 之 一 。 

休息 一 下 有 助 于 思考 。 与 人 交谈 也 一 样 。 如 果 你 向 其 他 人 (其 至 是 自己 ) 解释 问题 ， 有 时 在 
问 完 问 题 之 前 ， 你 就 找到 答案 了 。 

但 是 ， 如 果 错 误 太 多 或 党 试 修复 的 代码 过 于 庞 大 和 复杂 ， 即 使 最 好 的 调试 技术 也 无 济 于 事 。 

有 时 最 好 的 选择 是 以 退 为 进 ， 对 程序 进行 简化 ， 直 到 你 能 掌控 和 理解 的 程度 。 

编程 新 手 往往 不 愿意 回 退 ， 因 为 他 们 无 法 忍受 删除 代码 (即使 它 是 错 的 ) 。 如 果 你 对 自己 写 
的 代码 感觉 还 不 错 ， 在 删除 代码 之 前 复制 一 份 到 另 一 个 文件 中 。 之 后 ， 你 就 能 每 次 粘贴 回来 
一 小 部 分 代码 。 

找到 难度 大 的 错误 需要 阅读 、 运 行 、 沉 思 以 及 时 而 后 退 等 步骤 。 如 果 你 陷入 其 中 一 种 ， 试 试 
其 他 的 。 


10.10 术语 

可 比较 的 : 相同 类 型 的 值 之 间 进 行 比较 ， 包 括 大 于 、 小 于 或 等 于 。 可 进行 比较 的 类 型 可 以 放 
在 列表 中 ， 并 可 以 排序 。 

数据 结构 : 相关 值 的 集合 ， 常 见 形式 有 列表 、 字 典 、 元 组 等 。 

DSU: 修饰 -排序 -去 修饰 "的 缩写 ， 包 括 构建 元 组 列表 、 排 序 与 抽取 部 分 结果 的 一 种 模式 。 
聚集 : 组 装 变 长 参数 元 组 的 操作 。 


可 哈 希 的 : 拥有 了 哈 希 画 数 的 类 型 。 不 可 变 类 型 ， 如 整数 、 浮 点 数 和 字符 串 ， 都 可 以 使 用 哈 希 
男 数 ; 可 变 类 型 ， 如 列表 与 字典 ， 不 可 以 使 用 哈 希 加 数 。 


散布 : 将 序列 视 为 参数 列表 的 操作 。 

数据 结构 的 形状 : 数据 结构 的 类 型 、 大 小 与 组 成 的 概要 。 
单 例 : 包含 一 个 元 素 的 列表 (或 其 他 序列 ) 。 

元 组 : 不 可 变 的 元 组 序列 。 


元 组 赋值 : 右 侧 是 序列 赋值 ， 左 侧 是 变量 元 组 。 右 侧 通过 检验 后 ， 将 其 中 的 元 素 赋予 左 侧 的 
冯 量 。 


10.11 练习 


习题 10.1 修改 之 前 的 程序 : 读 取 与 解析 出 以 “From” 开 头 的 行 ， 取 出 符合 条 件 的 行 中 的 邮箱 。 
使 用 字典 统计 出 每 个 人 的 邮件 数 。 


当 所 有 的 数据 读 取 完 毕 ， 从 字典 中 创建 一 个 元 组 (count, email) 列 表 ， 然 后 对 列表 进行 反 向 排 
序 ， 打 印 出 提交 最 多 的 用 户 。 


Sample Line: 
From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 


Enter a file name: mbox-short.txt 
cwenQ@iupui.edu 5 


Enter a file name: mbox.txt 
zdqian@umich.edu 195 


习题 10.2 统计 出 每 条 消息 在 一 天 中 的 小 时 分 布 。 从 以 “From" 开 头 的 行 中 ， 找 出 时 间 字 符 串 ， 
根据 冒号 将 其 分 解 。 对 每 个 小 时 的 次 数 进行 累积 ， 按 行 打印 出 统计 数 ， 并 按照 小 时 进行 排 
序 ， 程 序 运 行 结果 如 下 所 示 : 
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Sample Execution: 
python timeofday .py 
Enter a file name: mbox-short.txt 
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上 上 DeNNROmwN 上 


习题 10.3 编写 一 个 程序 ， 读 取 一 个 文件 ， 按 照 频 率 降 序 打 印 出 字母 。 这 个 程序 将 所 有 输入 转 
化 成 小 写 ， 只 统计 字母 a-z， 不 统计 空格 、 数 字 、 标 点 符号 以 及 其 他 a-z 之 外 的 字符 。 尝 试 使 用 
不 同 语种 的 文本 片段 ， 观 察 不 同 语言 之 间 的 词 频 差异 。 将 结 

与 http://wikipedia.org/wiki/Letter_frequencies 上 的 词 频 表 进行 比较 。 


1. 有 趣 的 事实 : “元 组 "的 命名 取决 于 序列 的 长 度 ， 如 一 元 组 (single) 、 二 元 组 
(double) 、 三 元 组 (triple,) 、 四 元 组 (quadruple) 、 五 元 组 (quintuple) 、 六 元 组 
(sextuple) 七 元 组 (septuple) 等 。 局 


2. 译 者 注 : 此 句 出 自 莎士比亚 的 《罗密欧 与 朱 坝 叶 》。 原 文 为 "But, soft! what light 
through yonder window breaks? "， 本 书 作者 略 作 修改 ， 将 through 改 为 in。 人 


3. Python 不 做 字面 上 的 语法 翻译 。 如 果 你 使 用 Python 的 字典 进行 语言 翻译 ， 无 法 得 到 想 
要 的 结果 。 后 


4. python 3.0 中 的 用 法 有 些许 差异 。 e 
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第 11 章 正则 表达 式 


至 此 ， 我 们 已 经 学 会 如 何 读 取 文 件 ， 寻 找 模式 与 提取 感 兴趣 的 文本 行 片段 。 文 本 行 提 取 的 方 
法 ， 包 括 字 符 串 方法 《如 split 与 fnd) 、 列 表 与 字符 串 切 片 等 。 


文本 搜索 与 抽取 是 常见 任务 。Python 拥 有 非常 强大 的 快速 有 效 处 理 此 类 任务 的 库 一 一 正则 表 
达 式 。 正 则 表达 式 功 能 强大 ， 比 较 复杂 ， 其 语法 需要 一 些 时 间 来 熟悉 ， 所 以 本 书 并 没有 过 早 
提 及 。 


正则 表达 式 几 乎 就 是 一 门 关于 字符 串 搜索 与 解析 的 小 型 编程 语言 。 事 实 上 ， 整 本 书 都 是 围绕 
正则 表达 式 主 题 展 开 。 本 章 仅 介绍 正则 表达 式 基础 ， 有 关 正 则 表达 式 更 多 详细 信息 ， 请 参阅 
以 下 网 址 : 


http://en.wikipedia.org/wiki/Regular_expression 
http://docs.python.org/library/re.html 


正则 表达 式 库 在 使 用 之 前 必须 先导 入 到 程序 中 。 正 则 表达 式 库 最 简单 的 用 法 是 search() 汞 数 。 
搜索 函数 的 简单 用 法 如 下 程序 所 示 : 


import re 
hand = open('mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
if re.search('From:', line) : 
print line 


打开 文件 ， 循 环 每 一 行 ， 使 用 正则 表达 式 的 search() 函 数 ， 打 印 出 包含 宇 符 串 "From:" 的 文本 
行 。 这 个 程序 其 实 并 没有 发 挥 正则 表达 式 的 真正 实力 ，line.find() 函 数 可 以 更 容易 地 实现 相同 
的 结果 。 

正则 表达 式 的 强大 之 处 体现 于 ， 可 以 在 搜索 字符 串 中 添加 特定 字符 ， 以 实现 更 精确 的 字符 串 
文本 行 的 匹配 控制 。 通 过 在 正则 表达 式 中 添加 特定 字符 ， 编 写 很 少 代码 就 可 以 实现 复杂 的 匹 
配 与 抽取 。 


例如 ， 正 则 表达 式 的 ^ 符 号 匹配 一 行 的 开始 。 我 们 修改 一 下 上 面 的 程序 ， 仅 匹配 *From:" 开 头 的 
文本 行 。 


Import re 
hand = open( 'mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
if re.search('^From:', line) : 
print line 


好 了 ， 这 就 做 到 人 私 匹 配 “From:" 开 头 的 文本 行 。 这 仍然 是 一 个 非常 简单 的 例子 ， 字 符 串 库 的 
startswith() 汞 数 同样 可 以 实现 。 之 所 以 这 样 讲解 ， 目 的 是 介绍 正则 表达 式 的 理念 ， 包 含 特定 行 
动 字符 ， 给 予 文本 匹配 更 多 的 控制 。 


11.1 正则 表达 式 的 字符 匹配 


许多 特定 字符 可 以 帮助 我 们 编写 非常 强大 的 正则 表达 式 。 最 常用 的 特定 字符 是 句点 ， 它 可 以 
匹配 所 有 字符 。 


在 下 面 的 例子 中 ， 正 则 表达 式 "F..m:" 会 匹配 配 “From:”、"Fxxm"、“F12m” 或 "FI@m"。 正 则 表达 
式 的 句点 可 以 匹配 任意 字符 。 


Import re 
hand = open( 'mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
If re.search('^F..m:', line) : 
print line 


“和 "+" 表示 一 个 字符 可 以 重复 任意 次 数 ， 在 构造 正则 表达 式 时 结合 这 种 能 力 特别 有 用 。 这 些 
特定 字符 用 来 代 蔡 单个 字符 ， 星 号 匹配 需 或 多 个 字符 ， 加 号 匹配 一 个 或 多 个 字符 。 


进一步 减少 代码 ， 以 下 示例 使 用 重复 的 通配符 : 


import re 
hand = open('mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
if re.search('^From: .+@', line) : 
print line 


搜索 字符 串 亿 From:.+@” 会 成 功 匹 配 以 "From:" 开 头 ， 之 后 一 个 或 多 个 字符 ， 以 @ 结 尾 的 文本 
行 。 结 果 匹 配 如 下 所 示 : 


From: stephen.marquard @uct .ac.za 


可 以 这 样 理解 ,“.+" 通 配 符 匹配 了 冒号 与 @ 之 间 的 所 有 字符 。 


From: ,+ @ 


有 时 候 ， 加 号 与 星 号 可 能 会 "用 力 过 猛 "。 例 如 下 面 的 字符 串 匹 配 ，".+" 将 其 外 推 ， 直 到 最 后 一 
个 @。 


From: stephen.marquard@uct.ac.za, csev@umich.edu, and cwen @iupui.edu 


通过 添加 其 他 字符 ， 让 星 号 和 加 号 不 要 如 此 “ 贪 梦 "地 匹配 ， 这 是 可 以 做 到 的 。 详 情 请 参阅 " 关 
闭 贪 楚 行 为 ”的 文档 。 


11.2 使 用 正则 表达 式 抽 取 数 据 


在 Python 中 抽取 字符 串 的 数据 ， 用 到 的 是 findall() 函 数 。 通 过 正则 表达 式 的 匹配 ， 抽 取 所 有 符 
合 的 子 字符 串 。 以 下 示例 从 格式 无 关 的 任何 文本 行 中 抽取 类 似 电 子 邮 件 地 址 的 文本 。 


From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 
Return-Path: <postmaster@collab.sakaiproject.org> 

for <source@collab.sakaiproject.org>; 
Received: (from apache@localhost) 
Author: stephen.marquard@uct.ac.za 


我 们 不 想 为 每 个 文本 行 类 型 编写 代码 ， 每 个 文本 行 都 分 割 和 切片 一 次 。 以 下 程序 使 用 findall() 
找到 文本 中 的 电子 邮件 地 址 ， 从 每 一 行 抽取 一 个 或 多 个 电子 邮件 地 址 。 


import re 

S = 'Hello from csev@umich.edu to cwen@iupui.edu about the meeting @2PM' 
lst = re.findall('\S+@\S+', s) 

print lst 


findall() 范 数 搜索 第 二 个 参数 的 字符 串 ， 返 回 一 个 包含 形 如 电子 邮件 地 址 字符 串 的 列表 。 我 们 
使 用 两 字符 序列 来 匹配 非 空 字符 (\S)。 


程序 运行 结果 如 下 : 


['csev@umich.edu', 'cwen@iupui.edu'] 


解释 一 下 这 个 正则 表达 式 ， 我 们 寻找 至 少 含有 一 个 非 空 字符 的 子 字符 串 ， 之 后 是 @， 然 后 再 
是 至 少 一 个 或 多 个 非 空 字符 。”^\S+:" 匹 配 尽 可 能 多 个 非 空 字符 。 这 就 是 正则 表达 式 中 的 贪 楚 匹 
配 。 


正则 表达 式 会 匹配 两 个 电子 邮件 地 址 ， 但 不 会 匹配 “@2PM”， 原 因 是 @ 之 前 没有 非 空 字符 。 在 
程序 中 使 用 这 个 正则 表达 式 ， 读 取 文 件 的 所 有 行 ， 然 后 打印 出 所 有 类 似 电 子 邮件 地 址 的 结 
果 ， 如 下 所 示 : 


Import re 
hand = open( mbox-short.txt ') 
for line in hand : 
line = line.rstrip() 
x = re.findall('\S+@\S+', line) 
If len(x) > 0 : 
print x 


读 取 每 一 行 ， 抽 取 和 与 正则 表达 式 匹 配 的 所 有 字符 串 。 由 于 findall() 返 回 的 是 列表 ， 我 们 简单 查 
看 下 返回 的 列表 不 为 需 ， 打 印 出 来 的 每 行 至 少 包含 一 个 电子 邮件 地 址 。 


对 mbox.txt 运 行程 序 ， 得 到 如 下 结果 : 


'wagnermr@iupui.edu'] 

'cwen@iupui.edu'] 
'<postmaster@collab.sakaiproject.org>'] 

'<200801032122 .m03LMFo04005148@nakamura.uits,.iupui.edu>'] 
'<sourceQ@collab.sakaiproject.org>;'] 
'<sourceQ@collab.sakaiproject .org>;'] 
'<source@collab.sakaiproject.org>;'] 
'apache@localhost]'] 
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"SourceQ@collab ,sakaliproject.org; '] 


一 些 电子 地 址 的 开头 或 结尾 包含 了 不 正确 的 字符 ， 如 “<” 或 “”。 这 里 声明 一 下 ， 仅 需要 以 字母 
或 数字 开头 和 结尾 的 字符 串 部 分 。 


要 做 到 这 一 点 ， 我 们 使 用 正则 表达 式 的 另 一 个 功能 ， 使 用 方 括号 罗列 多 个 可 接受 的 匹配 字 
符 。 在 某 种 意义 上 ，AS" 匹 配 的 是 非 空 字符 的 集合 。 现 在 ， 我 们 更 清楚 一 些 字符 匹配 的 本 质 
了 。 


下 面 是 新 的 正则 表达 式 : 


[a-zA-Z0-9]\S*@\S*[a-zA-Z] 


这 看 起 来 有 点 复杂 ， 你 现在 应 该 明白 正则 表达 式 为 什么 被 称 为 一 门 专门 的 语言 了 。 解 释 一 下 
这 个 正则 表达 式 ， 寻 找 以 一 种 子 字 符 串 ， 以 小 写字 母 、 大 写字 母 或 数字 开头 [a-zA-Z0-9]， 之 
后 是 需 个 或 多 个 非 空 字符 \S"， 然 后 是 @， 再 是 需 个 或 多 个 非 空 字符 ^\S”， 最 后 是 一 个 大 写 或 
小 写字 母 。 请 注意 ， 我 们 从 加 号 到 星 号 ， 再 到 需 个 或 多 个 非 空 字符 。[a-zA-Z0-9] 本 身 就 是 一 
个 非 空 字符 。 请 记 住 ， 星 号 和 加 号 直接 作用 于 它 左 侧 的 单个 字符 。 


如 果 在 程序 中 使 用 这 个 正则 表达 式 ， 数 据 会 变 得 干净 一 些 : 


Import re 
hand = open( 'mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
x = re.findall('[a-zA-20-9]\S*@\S*[a-zA-Z]', line) 
If len(x) > 0 : 
print X 


['wagnermr@iupui.edu'] 

['cwen@iupui.edu'] 
['postmaster@collab.sakaiproject.org'] 

['200801032122 .m03LMFo4005148@nakamura.uits.iupui.edu'] 
['source@collab.sakaiproject.org'] 
['source@collab.sakaiproject.org'] 
['source@collab.sakaiproject.org'] 

['apache@localhost'] 


注意 到 source@collab.sakaiproject.org 这 一 行 ， 正 则 表达 式 消除 了 字符 串 结尾 (“>”) 结尾 的 
两 个 字母 。 原 因 是 我 们 在 正则 表达 式 末 尾 追 加 了 “[a-zA-2]”， Oe ee i 


因此 ， 当 出 现 “sakaiproject.org>;”， 它 会 止步 于 匹配 找到 的 最 后 一 个 
字母 ， 这 里 g 是 最 后 一 个 符合 要 求 的 字符 匹配 。 
还 要 注意 的 是 ， 该 程序 的 结果 是 一 个 Python 列表 ， 每 个 字符 串 是 一 个 元 素 。 


11.3 将 搜索 与 抽取 结合 


如 果 我 们 想 要 找到 以 “X-* 开 头 的 文本 行 ， 如 下 所 示 : 


X-DSPAM-Confidence: 0.8475 
X-DSPAM-Probability: 0.0000 


我 们 不 仅 需 要 文本 行 中 的 浮 点 数 ， 还 需要 统计 符合 以 上 语法 的 文本 行 数 。 
使 用 下 面 的 正则 表达 式 来 挑选 出 符合 要 求 的 文本 行 : 
AX-.*: [0-9.]+ 
解释 一 下 ， 文 本 以 "X-" 开 头 ， 之 后 是 雳 个 或 多 个 字符 “.”， 然 后 是 一 个 冒号 和 一 个 空格 。 空 格 


之 后 是 一 个 或 多 个 字符 ， 可 以 是 一 个 数字 (0-9) 或 一 个 句点 [0-9.]+"。 需 要 注意 的 是 ， 方 括号 中 
的 句点 实际 匹配 的 是 句点 本 身 ， 也 就 是 说 ， 它 在 方 括号 内 不 是 通配符 。 


是 一 个 非常 紧凑 的 表达 式 ， 我 们 感 兴趣 的 文本 匹配 如 下 所 示 : 


Import re 
hand = open( 'mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
If re.search('^Xx\S*: [0-9.]+', line) : 
print line 


运行 这 个 程序 ， 经 过 过 滤 的 数据 仅 保留 如 下 内 容 : 


X-DSPAM-Confidence: 0.8475 
X-DSPAM-Probability: 0.0000 
X-DSPAM-Confidence: 0.6178 
X-DSPAM-Probability: 0.0000 


现在 ， 我 们 要 解决 抽取 数值 的 问题 ， 使 用 split 方 法 。 虽然 使 用 split 很 简单 ， 我 们 这 里 使 用 正则 
表达 式 的 另 一 个 功能 ， 让 搜索 与 解析 同时 进行 。 


括号 是 正则 表达 式 的 另 一 个 特殊 字符 。 在 正则 表达 式 中 添加 括号 ， 括 号 的 内 容 将 在 匹配 时 被 
忽略 。 但 是 ， 在 findall() 本 数 中 括号 表示 的 是 匹配 括号 内 的 整个 表达 式 。 在 抽取 和 与 正则 表达 式 
匹配 的 子 字 符 串 部 分 ，findall() 函 数 适 用 。 


这 样 ， 修 改 之 后 的 程序 代码 如 下 : 


import re 
hand = open('mbox-short.txt"') 
for line in hand: 
line = line.rstrip() 
x = re.findall('^X\S*: ([0-9.]+)', line) 
If len(x) > 0 : 
print X 


与 search() 函 数 不 同 ， 我 们 在 正则 表达 式 中 添加 括号 来 表示 浮 点 数 ， 指 明 我 们 只 需要 findall() 
函数 找 出 匹配 到 的 字符 串 的 浮 点 数 。 


0000 ' ] 
6961'] 
0000 ' ] 


数字 仍然 是 存在 列表 中 ， 需 要 把 字符 串 转 换 为 浮 点 数 。 侧重 展示 正则 表达 式 可 以 同时 进 
行 搜索 与 抽取 的 功能 实现 。 


如 果 文 件 包含 如 下 形式 的 文本 行 ， 使 用 这 种 方法 的 另 一 个 例子 如 下 : 


Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772 


如 果 想 要 抽取 所 有 的 修订 号 (每 一 行 末尾 的 整数 值 ) ， 程 序 代码 如 下 : 


import re 
hand = open('mbox-short.txt') 
for line in hand : 
line = line.rstrip() 
x = re.findall('^Details:.*rev=([0-9]+)', line) 
If len(x) > 0: 
print X 


解释 一 下 这 个 正则 表达 式 ， 以 “Details:" 开 头 ， 之 后 是 任意 字符 “.”， 然 后 是 “rev=”， 最 后 是 雾 
或 多 个 数字 。 我 们 只 需要 文本 行 最 后 的 整数 值 ， 所 以 用 括号 把 [0-9]+ 括 起 来 。 


程序 运行 结果 如 下 : 


['39772'] 
['39771'] 
['39770'] 
['39769'] 


请 记 住 ，“[0-9]+" 是 “ 贪 梦 的 "， 在 抽取 这 些 数字 之 前 ， 它 试图 匹配 尽 可 能 多 的 符合 条 件 的 字符 
串 。 这 个 贫 林 行为 是 获得 5 位 数字 的 原因 所 在 。 正 则 表达 式 库 进行 了 前 后 扩展 ， 直 到 它 在 开头 
或 结尾 遇 到 一 个 非 数字 才 停 止 匹配 。 


现在 ， 我 们 可 以 使 用 正则 表达 式 重 做 之 前 的 邮件 消息 中 的 时 间 提 取 。 文 本 内 容 如 下 : 


From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 


此 处 抽取 每 一 行 中 当天 的 小 时 。 之 前 的 做 法 是 调用 split 两 次 。 第 一 次 ， 文 本 行 分 解 为 单词 ， 取 
出 第 五 个 单词 ， 将 其 再 次 用 冒号 分 解 。 最 后 ， 取 出 我 们 需要 的 前 两 个 字符 。 


虽然 这 样 做 达到 了 目标 ， 但 在 代码 编写 时 缺乏 一 定 灵活 性 ， 前 提 是 文本 需要 经 过 良好 的 格式 
化 。 如 果 坟 加 足够 的 错误 检查 或 一 大 块 的 try/except 人 代码， 确保 程序 在 遇 到 格式 不 正确 的 文本 
行 时 不 会 出 错 ， 代 码 会 增长 到 10-15 行 ， 那 就 不 太 好 阅读 了 。 


使 用 下 面 的 正则 表达 式 可 以 更 容易 地 做 到 这 一 点 : 


^From .* [0-9][0-9]: 


解释 一 下 这 个 正则 表达 式 ， 以 “From "开头 〈 注 意 空格 ) ， 之 后 是 任意 多 个 字符 ”， 然 后 空 一 
格 ， 接 着 是 2 位 数字 "“[0-9][0-9]"， 最 后 是 一 个 冒号 。 这 样 的 定义 符合 之 前 想 要 寻找 的 内 容 。 


为 了 只 取出 小 时 数 ， 使 用 findall() 方 法 ， 在 两 位 数字 上 加 括号 ， 正 则 表达 式 如 下 : 


^From .* ([0-9][0-9] ) : 


程序 代码 如 下 : 


Import re 

hand = open( 'mbox-short.txt') 

for line in hand : 
line = line.rstrip() 
x = re.findall('^From .* ([0-9][0-9]):', line) 
If len(x) > 0 : print x 


程序 运行 结果 如 下 : 


11.4 转 义 字符 


由 于 在 正则 表达 式 中 使 用 特殊 字符 来 匹配 一 行 的 开头 与 结尾 ， 或 指定 通配符 ， 那 么 需要 一 种 
方法 来 保证 这 些 特 殊 字 符 本 身 的 指 代 性 ， 例 如 匹配 $ 与 ^ 符 号 本 身 。 通 过 在 字符 前 使 用 反 斜 杠 
作为 前 级 可 以 轻松 解决 这 个 问题 。 例 如 ， 使 用 以 下 正则 表达 式 找 出 金额 数 。 


import re 
x = 'We just received $10.00 for cookies.' 
y = re.findall('\$[0-9.]+',x) 


由 于 $ 符 号 之 前 有 一 个 反 斜 枉 ， 它 实际 上 匹配 的 是 美元 符号 本 身 ， 不 是 匹配 一 行 的 结尾 ， 正 则 


表达 式 的 其 他 部 分 匹配 一 个 或 多 个 数字 和 句点 。 请 注意 ， 方 括号 内 ， 字 符 没有 特殊 性 。 
此 ，[0-9.] 实 际 表 示 数 字 和 和 句点。 方 括号 之 外 ， 句 点 是 一 个 通配符 ， 匹 配 任意 字符 。 在 方 括号 


之 内 ， 句 点 就 代表 它 本 身 。 


11.5 小 结 


虽然 本 章 只 触及 了 正则 表达 式 的 皮毛 ， 但 我 们 已 经 对 正则 表达 式 这 门 语言 有 所 了 解 。 包 含 特 
殊 字 符 的 搜索 字符 串 能 够 按照 意愿 ， 构 建 正 则 表达 式 来 定义 匹配 的 字符 和 想 要 抽取 的 内 容 。 
以 下 是 一 些 特殊 字符 和 字符 序列 : 


^ 匹配 文本 行 的 开头 。 

$ 匹配 文本 行 的 结尾 。 

. 匹配 任 一 字符 (一 个 通配符 ) 。 

\s 匹配 一 个 空白 字符 。 

\S 匹配 一 个 非 空 字符 “与 \s 相 反 ) 。 

* 应 用 于 前 接 字符 ， 表 示 前 接 字符 的 震 个 或 多 个 匹配 。 

*? 应 用 于 前 接 字符 ， 以 非 贪 梦 模式 ， 表 示 前 接 字符 的 替 个 或 多 个 匹配 。 
+ 应 用 于 前 接 字符 ， 表 示 前 接 字符 的 一 个 或 多 个 匹配 。 

+? 应 用 于 前 接 字符 ， 以 非 贫 梦 模式， 表示 前 接 字 符 的 一 个 或 多 个 匹配 。 


[aeiou] 匹配 指定 字符 集中 的 一 个 字符 。 这 里 只 能 是 “a*"、“e”、 宁 、“0” 或 “U"， 不 接受 其 他 字 
符 。 


[a-z0-9] 使 用 减 号 指定 字符 区 间 。 这 里 表示 一 个 字符 ， 必 须 是 小 写字 母 或 数字 。 
[^A-Za-z] 第 一 个 字符 是 ^， 它 表示 反 向 逻辑 。 这 里 匹配 除了 大 小 写字 符 之 外 的 其 他 任意 字符 。 


() 在 正则 表达 式 中 添加 括号 ， 括 号 内 容 会 才 失 匹配 功能 ， 但 在 findall() 中 可 以 用 于 抽取 特定 音 
分 的 字符 串 ， 而 不 是 整个 字符 串 。 


\b 匹配 空 字符 串 ， 仅 用 于 单词 的 首尾 。 
\B 匹配 空 字符 串 ， 但 不 能 用 于 单词 的 首尾 。 
\d 匹配 任意 十 进 制 数 字 ， 等 价 于 [0-9]。 


\D 匹配 任意 非 数 字 字 符 ， 等 价 于 0-9。 


11.6 Unix 用 户 福 利 


自 20 世 纪 60 年 以 后 ，Unix 操 作 系统 内 置 了 文件 搜索 的 正则 表达 式 功能 。 它 几乎 在 所 有 编程 语 
言 中 通用 ， 只 是 细节 上 有 所 差别 。 


事实 上 ，Unix 内 置 了 一 个 命令 行 工 具 ， 称 为 grep (Generalized Regular Expression Parser, 
通用 正则 表达 式 解 析 器 ) ， 可 以 实现 本 章 search() 在 示例 中 的 相同 作用 。 如 果 使 用 Mac 或 
Linux 操 作 系 统 ， 你 可 以 在 命令 行 窗 口中 执行 以 下 语句 。 


$ grep '^From:' mbox-short.txt 
From: stephen.marquard@uct .ac.za 
From: louis@media.berkeley.edu 
From: zqian@umich.edu 

From: rjlowe@iupui.edu 

1![Alt text](./1434462994117.png) 


条 命令 告诉 grep， 显 示 mbox-short.txt 文 件 中 以 “From:” 开 头 的 字符 串 。 如 果 党 试 使 用 grep 命 
合 和 阅 i 你 会 发 现 Python 支 持 的 正则 表达 式 与 grep 支 持 的 正则 表达 式 存 在 一 些 
细微 差别 。 例 如 ，grep 不 支持 非 空 字符 ^S"”， 所 以 需要 使 用 稍微 复杂 一 点 的 集合 符号 外 了 ， 表 
示 匹 配 非 空格 的 任意 字符 。 


人 


11.7 调试 


Python 包含 一 些 简 单 明 了 的 内 置 文档 ， 有 助 于 快速 掌握 和 记忆 特定 方法 的 确 确切 名 称 。 这 些 
文档 可 以 在 Python 解析 器 的 交互 模式 下 查看 。 


>>> help() 
Welcome to Python 2.6! This is the online help utility. 


If this is your first time using Python, you should definitely check out 
the tutorial on the Internet at http://docs.python.org/tutorial/. 


Enter the name of any module, keyword, or topic to get help on writing 
Python programs and using Python modules. To quit this help utility and 
return to the interpreter, just type "quit". 


To get a list of available modules, keywords, or topics, type "modules", 

"keywords", or "topics". Each module also comes with a one-line summary 

of what it does; to list the modules whose summaries contain a given word 
such as "spam", type "modules spam". 


help> modules 


如 果 你 知道 需要 使 用 的 模块 名 称 ， 使 用 dir() 命 令 查 找 这 个 模块 的 方法 ， 如 下 所 示 : 


>>> Import re 

>>> dir(re) 

[.. 'compile', 'copy_reg', 'error', 'escape', 'findall', 
'finditer', 'match', 'purge', 'search', 'split', 'sre_compile', 
'sre_parse', 'sub', 'subn', 'sys', 'template'] 


你 也 可 以 使 用 dir 命 令 来 查找 特定 方法 的 一 小 部 分 文档 。 


>>> help (re.search) 
Help on function search in module re: 


search(pattern, string, flags=0) 
Scan through string looking for a match to the pattern, returning 
a match object, or None if no match was found. 

>>> 


虽然 内 置 的 文档 不 够 详尽 ， 但 在 急需 或 没有 网 络 浏览 器 和 搜索 引擎 的 情况 下 各 用 。 


11.8 术语 


脆弱 代码 : 当 输 入 数据 是 一 种 特定 格式 ， 如 果 格 式 上 有 一 点 偏差 ， 代 码 很 容易 出 问题 。 由 于 
容易 出 错 ， 这 种 代码 被 称 为 “脆弱 代码 ”。 


楚 匹 配 : 正则 表达 式 中 “+” 和 ”采用 外 向 扩展 ， 匹 配 最 大 可 能 的 字符 串 。 


grep : 在 大 多 数 Unix 操 作 系统 中 可 以 使 用 的 命令， 搜索 文本 文件 ， 通 过 正则 表达 式 一 行 行进 
行 匹配 。 该 命令 的 全 称 是 通用 正则 表达 式 解析 器 (Generalized Regular Expression 
Parser) 。 


正则 表达 式 : 表达 复杂 搜索 字符 串 的 语言 。 正 则 表达 式 可 能 包含 特定 字符 串 ， 指 明 搜 索 只 匹 
配 开头 或 结尾 ， 以 及 其 他 许多 类 似 的 功能 。 


通配符 : 匹配 任意 字符 的 特殊 字符 。 例 如 ， 在 正则 表达 式 中 ， 句 点 是 一 个 通配符 。 


11.9 练习 


习题 11.1 编写 一 段 简单 程序 ， 模 拟 Unix 的 grep 命 邻 操 作 。 要 求 用 户 输入 一 个 正则 表达 式 ， 统 
计 出 正则 表达 式 匹 配 的 文本 行 数 。 


$ python grep.py 
Enter a regular expression: AAuthor 
mbox.txt had 1798 lines that matched AAuthor 


$ python grep.py 
Enter a regular expression: AX- 
mbox.txt had 14368 lines that matched 人 ^X- 


$ python grep.py 
Enter a regular expression: java$ 
mbox.txt had 4218 lines that matched java$ 


习题 11.2 编写 一 个 程序 ， 查 找 “New Revision: 39772” 所 在 的 文本 行 。 使 用 正则 表达 式 的 
findall() 函 数 抽取 每 一 行 中 的 数字 ， 计 算 并 输出 数字 的 平均 值 。 


Enter file:mbox .txt 
38549 .7949721 


Enter file:mbox-short.txt 
39756.9259259 
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虽然 书 中 许多 示例 侧重 于 读 取 文件 和 检索 文件 中 的 数据 ， 而 如 今 的 互联 网 上 有 丰富 的 信息 来 
源 ， 值 得 考虑 在 内 。 


在 本 章 中 ， 我 们 伪装 成 一 个 网 络 浏览 器 ， 使 用 超 文本 传输 协议 (HyperText Transport 
Protocol, HTTP) 检索 网 页 ， 读 取 页 面 数据 并 进行 解析 。 


思 ~、 
12.1 超 文 本 传输 协议 一 HTTP 
网 络 协议 驱动 了 整个 网 络 ， 其 本 身 非 常 简 单 。 由 于 Python 内 置 了 sockets 库 ， 在 Python 程序 中 
建立 网 络 连接 ， 通 过 这 些 套 接 字 检索 数据 ， 变 得 非常 容易 。 


套 接 字 很 像 文件 。 不 同 的 是 它 提供 了 两 个 程序 之 间 的 双向 连接 ， 在 一 个 套 接 字 上 可 以 同时 读 
取 和 写 入 。 如 果 你 在 套 接 字 的 一 端 编 写 内 容 ， 套 接 字 会 把 数据 发 送 给 另 一 端的 应 用 程序 。 如 
果 从 套 接 字 读 取 ， 将 得 到 另 一 个 程序 发 送 的 数据 。 


然而 ， 当 套 接 字 另 一 端 没有 发 送 任何 数据 时 ， 如 果 你 尝试 读 取 套 接 字 ， 结 果 就 只 能 等 待 。 如 
果 套 接 字 两 端的 程序 都 在 等 待 数据 ， 而 不 发 送 任何 数据 ， 它 们 就 会 这 样 僵 持 下 去 。 


程序 的 一 个 重要 组 成 部 分 是 与 互联 网 的 通讯 ， 即 具备 某 种 协议 。 协 议 是 一 组 精确 规则 的 集 
合 ， 决 定 了 谁 先 谁 后 ， 做 些 什 么 ， 对 消息 如 何 响应 ， 以 及 下 一 步 谁 来 发 送 等 。 从 某 种 意义 上 
说 ， 套 接 字 两 端的 两 个 程序 像 是 在 跳舞 ， 确 保 不 会 踊 到 对 方 的 脚趾 。 


已 有 大 量 文档 介绍 网 络 协议 。 超 文本 传输 协议 原文 如 下 : 
http://www.w3.org/Protocols/rfc2616/rfc2616.txt 


这 个 文档 包含 179 页 ， 内 容 复 厅 详 尽 。 如 果 你 感 兴趣 ， 请 读 完 它 。 如 果 仅 是 翻 看 RFC2616 的 
第 36 页 左右 ， 你 会 找到 GET 请 求 的 语法 。 如 果 仔 细 阅 读 ， 你 会 发 现 是 从 网 络 服 务 器 请 求 文 
档 ， 和 与 http://www.py4inf.com 服 务 器 的 80 端 口 建立 连接 ， 然 后 发 送 表 单 的 一 行 。 


GET http://www.py4inf.com/code/romeo.txt HTTP/1.0 


第 二 个 参数 是 我 们 请 求 的 网 页 ， 随 后 我 们 发 送 一 个 空白 行 。 网 络 服务 器 将 响应 文档 的 一 些 头 
部 信息 和 文档 内 容 之 后 的 空白 行 。 


12.2 世界 上 最 简单 的 网 络 浏览 妖 


解释 HTTP 工 作 原理 的 最 简单 方法 ， 也 许 就 是 编写 一 段 非常 简单 的 Python 程序 。 和 与 网 络 服务 器 


建立 连接 ， 遵 循 HTTP 协 议 规 则 ， 向 服务 器 请 求 文档 并 显示 出 来 。 


Import Socket 


mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 
mysock.connect(('www.py4inf.com', 80)) 
mysock.send('GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n') 


while True: 
data = mysock.recv(512) 
if ( len(data) <1 ) 
break 
print data 


mysock.close() 


首先 ， 程 序 和 与 服务 器 http://www.py4inf.com 在 80 端 口 建立 一 个 连接 ， 这 个 程序 扮演 了 网 络 浏 
器 的 角色 。HTTP 协 议 要 求 ， 必 须发 送 GET 命 令 ， 并 在 后 面 跟 一 个 空白 行 。 
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发 送 空 白 行 之 后 ， 我 们 编写 一 个 循环 ， 从 套 接 字 中 接收 512 个 字符 的 数据 片段 ， 并 打印 出 这 些 


数据 ， 直 到 没有 数据 可 以 读 入 ， 即 recv() 返 回 一 个 空 字 符 串 。 
程序 运行 结果 如 下 : 


HTTP/1.1 200 OK 

Date: Sun, 14 Mar 2010 23:52:41 GMT 

Server: Apache 

Last-Modified: Tue, 29 Dec 2009 01:31:22 GMT 
ETag: "143c1b33-a7-4b395bea" 

Accept-Ranges: bytes 

Content-Length: 167 

Connection: close 

Content-Type: text/plain 


But soft what light through yonder window breaks 
It is the east and Juliet is the sun 

Arise fair sun and kill the envious moon 

Who is already sick and pale with grief 


程序 一 开始 输出 的 是 网 络 服务 器 发 送 的 文档 描述 的 头 部 信息 。 例 如 ，Content-Type 头 部 指明 
文档 是 一 个 普通 文本 文档 〈text/plain) 。 


服务 器 发 送 了 头 部 信息 之 后 ， 添 加 一 个 空白 行 表 示 头 部 信息 发 送 完 毕 ， 然 后 发 送 实际 的 
romeo.txt 文 件数 据 。 


示例 展示 了 如 何 通过 套 接 字 建 立 低 级 别 的 网 络 连接 。 套 接 字 用 于 网 络 服务 器 、 邮 件 服务 器 以 
及 其 他 许多 类 型 服务 器 的 通讯 。 找 到 描述 协议 的 文档 ， 编 写 代 码 ， 根 据 协 议 发 送 和 获取 数 
据 ， 要 做 的 就 这 么 多 了 。 


由 于 最 常用 的 协议 是 HTTP ( 即 Web) 协议 ，Python 针 对 HTTP 协 议 设计 了 专门 的 库 来 支持 网 
络 文档 数据 的 获取 。 


12.3 通过 HTTP 检 索 图 像 


在 以 上 示例 中 ， 我 们 获取 了 一 个 包含 换行 符 的 普通 文本 文件 ， 程 序 运行 时 简单 地 拷贝 数据 并 
显示 出 来 。 接 下 来 ， 我 们 使 用 HTTP 编 写 一 个 类 似 的 程序 ， 用 来 检索 图 片 。 在 一 个 字符 串 中 累 
积 数据 ， 截 取 头 部 信息 ， 然 后 将 图 片 数 据 保存 到 一 个 文件 中 ， 程 序 代 码 如 下 : 


import socket 
import time 


mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 
mysock.connect(('www.py4inf.com', 80)) 
mysock.send('GET http://www.py4inf .com/cover .jpg HTTP/1.0\Nn\n') 


count = 0 

picture = ""，; 

while True: 
data = mysock.recv(5120) 
if ( len(data) < 1 ) : break 
# time.sleep(0.25) 
count = count + len(data) 
print len(data),count 
picture = picture + data 


mysock.close() 


# Look for the end of the header (2 CRLF) 
pos = picture.find("\r\n\r\n"); 

print 'Header length',pos 

print picture[:pos] 


# Skip past the header and save the picture data 
picture = picture[pos+4:] 

fhand = open("stuff.jpg","wb") 
fhand.write(picture); 

fhand.close() 


序 运行 结果 如 下 : 


$ python urljpeg.py 

2920 2920 

1460 4380 

1460 5840 

1460 7300 

1460 62780 

1460 64240 

2920 67160 

1460 68620 

1681 70301 

Header length 240 

HTTP/1.1 200 OK 

Date: Sat, 02 Nov 2013 02:15:07 GMT 
Server: Apache 

Last-Modified: Sat, 02 Nov 2013 02:01:26 GMT 
ETag: "19c141-111a9-4ea280f8354b8" 
Accept-Ranges: bytes 
Content-Length: 70057 

Connection: close 

Content-Type: image/jpeg 


针对 这 个 url，Content-Type 头 部 指明 文档 本 身 是 一 个 图 像 (img/jpeg) 。 程 序 运行 完毕 之 后 ， 
使 用 图 像 浏览 器 打开 stuff.jpg 文 件 查 看 图 像 数 据 。 


程序 运行 中 调用 了 recv() 画 数 ， 每 次 不 会 得 到 5120 个 字符 。 调 用 recv() 时 ， 通 过 网 络 ， 我 们 从 
网 络 服务 器 获得 更 多 字符 串 。 在 这 个 示例 中 ， 每 一 次 获得 1460 或 2920 个 字符 ， 请 求 上 限 是 
5120 个 字符 。 


网 速 不 同 会 导致 不 同 的 结果 。 还 要 注意 的 是 ， 最 后 一 次 调用 recv()， 在 数据 流 结 束 时 得 到 1681 
个 字 节 ， 再 下 一 个 recv() 调 用 获得 需 长 度 的 字符 串 。 这 就 是 告诉 我 们 ， 服 务 器 已 经 在 套 接 字 末 
尾 调用 了 close()， 没 有 更 多 数据 可 发 送 了 。 


把 time.sleep() 前 面 的 注释 去 掉 ， 这 样 可 以 减缓 随后 的 调用 。 这 样 一 来 ， 每 次 相隔 1/4 秒 ， 服 务 
器 让 我 们 “ 靠 前 ”发 送 更 多 的 数据 。 程 序 的 延 时 间隔 执行 如 下 所 示 : 


$ python urljpeg.py 

1460 1460 

5120 6580 

5120 11700 

5120 62900 

5120 68020 

2281 70301 

Header length 240 

HTTP/1.1 200 OK 

Date: Sat, 02 Nov 2013 02:22:04 GMT 
Server: Apache 

Last-Modified: Sat, 02 Nov 2013 02:01:26 GMT 
ETag: "19c141-111a9-4ea280f8354b8" 
Accept-Ranges: bytes 
Content-Length: 70057 

Connection: close 

Content-Type: image/jpeg 


这 次 运行 中 除了 第 一 次 和 最 后 一 次 recv() 调 用 ， 每 次 请 求 新 数据 都 会 得 到 5120 个 字符 。 


服务 器 生成 的 send() 请 求 与 程序 生成 的 recv() 请 求 之 间 存 在 一 个 缓冲 区 。 当 程序 执行 延迟 请 求 
时 ， 在 某 些 点 上 ， 服 务 器 可 能 会 在 套 接 字 中 填 满 缓冲 区 ， 并 强制 暂停 ， 直 到 程序 开始 清空 组 
存 区 。 发 送 应 用 或 接收 应 用 的 暂停 行为 被 称 为 “流量 控制 ”。 


12.4 使 用 urllib 检 索 网 页 


与 通过 HTTP 套 接 字 库 手 动 发 送 与 获取 数据 相 比 ，Python 中 有 一 种 更 简单 的 解决 方法 ， 使 用 
urllib 库 。 


使 用 urllib， 你 可 以 将 网 页 看 成 一 个 文件 。 只 需 简 单 指明 需 要 检索 的 网 页 ，urllib 会 处 理 所 有 
HTPP 协 议和 头 部 细节 。 


使 用 urllib 读 取 romeo.txt 文 件 的 代码 如 下 : 


Import urllib 
fhand = urllib.urlopen('http://www.py4inf .com/code/romeo.txt') 


for line in fhand: 
print line.strip() 


网 页 通过 urllib.urlopen 打 开 后 ， 我 们 就 可 以 把 它 当 成 一 个 文件 ， 使 用 for 循 环 来 读 取 。 


程序 运行 时 ， 我 们 仅 看 到 文件 内 容 的 输出 。 虽 然 头 部 信息 仍然 会 发 送 ， 但 是 urllib 代 码 会 处 理 
头 部 ， 发 送 给 我 们 的 仅 是 文件 内 容 。 


But soft what light through yonder window breaks 
It is the east and Juliet is the sun 

Arise fair sun and kill the envious moon 

Who is already sick and pale with grief 


为 了 演示 说 明 ， 我 们 编写 一 个 程序 来 获取 romeo.txt 的 数据 ， 计 算 文件 中 每 个 单词 的 频率 ， 代 
码 如 下 所 示 : 


Import urllib 


counts = dict() 
fhand = urllib.urlopen('http://www.py4inf .com/code/romeo.txt') 
for line in fhand: 
words = line.split() 
for word in words: 
counts[word] = counts.get(word,0) + 1 
print counts 


同样 地 ， 一 旦 打开 了 网 页 ， 我 们 就 可 以 把 它 当 做 一 个 本 地 文件 进行 读 取 。 


12.5 解析 HTML 和 Web 抓 取 
Python 的 urllib 常 见 用 法 之 一 是 网 页 抓 取 。 网 页 抓 取 是 编写 一 个 程序 ， 伪 装 成 网 络 浏览 器 ， 检 
索 网 页 ， 然 后 在 这 些 页 面 中 根据 模式 检视 数据 。 


举例 来 说 ， 搜 索引 擎 (如 Google) 会 查看 网 页 的 源 代码 ， 抽 取 链 接 到 其 他 页 面 的 超 链接 ， 然 
后 检索 这 些 页 面 ， 抽 取 超 链接 ， 如 此 往复 下 去 。 使 用 这 种 技术 ，Google 有 把 虫 几乎 志 历 了 网 络 
上 的 所 有 页 面 。 


Google 还 使 用 页 面 链 接 的 频次 来 说 明 一 个 具体 页 面 的 重要 性 ， 在 搜索 结果 中 表明 页 面 排 位 的 
高 低 。 


12.6 使 用 正则 表达 式 解 析 HTML 


HTML 解 析 的 一 个 简单 方法 是 使 用 正则 表达 式 进 行 重复 搜索 ， 根 据 特定 模式 ， 抽 取出 与 之 匹配 
的 子 字符 串 。 


以 下 是 一 个 简单 的 网 页 : 


<h1>The First Page</h1> 

<p> 

If you like, you can Switch to the 

<a href="http://www.dr-chuck.com/page2.htm"> 
Second Page</a>. 

</p> 


我 们 构造 一 个 符合 语法 规则 的 正则 表达 式 ， 匹 配 和 抽取 以 上 网 页 文本 中 的 超 链接 ， 正 则 表达 
式 如 下 所 示 : 


href="http://.+?" 


这 个 正则 表达 式 查找 以 ref="http:// 开头 的 字符 串 ， 之 后 是 一 个 或 多 个 字符 ".+?”， 最 后 是 另 一 
个 双 引 号 。".+?” 表 示 以 非 贪 禁 方 式 进行 匹配 ， 而 不 是 贪 梦 方式 。 非 贪 禁 匹配 试图 找到 最 小 可 
能 匹配 的 字符 串 ， 贪 梦 匹 配 试图 找到 最 大 可 能 匹配 的 字符 串 。 


正则 表达 式 中 的 括号 表示 ， 我 们 需要 精确 匹配 的 字符 串 ， 程 序 代码 如 下 : 


Import urllib 
Import re 


url = raw_input('Enter - ') 
html = urllib.urlopen(url).read() 
links = re.findall('href="(http://.*?)"', html) 
for link in links: 
print link 


正则 表达 式 的 findall 方 法 返回 正则 表达 式 匹 配 到 的 字符 串 列 表 ， 仅 返回 双 引 号 之 间 的 超 链 接 文 
本 。 程 序 运行 结果 如 下 : 


python urlregex.py 
Enter - http://www.dr-chuck.com/pagel1.htm 
http://www.dr-chuck.com/page2.htm 


python urlregex.py 

Enter - http://www.py4inf.com/book.htm 
http://ww.greenteapress.com/thinkpython/thinkpython.html 
http://allendowney.com/ 

http://www.py4inf .com/code 
http://www.1ib.umich.edu/espresso-book-machine 
http://www.py4inf .com/py4inf-slides.zip 


如 果 HTML 网 页 是 良 构 的 和 可 预测 的 ， 正 则 表达 式 会 处 理 地 很 漂亮 。 但 是 ， 由 于 存在 大 量 "“ 破 
坏 性 "的 HTML 网 页 ， 你 可 能 会 发 现 ， 仅 使 用 正则 表达 式 的 解决 方案 可 能 会 错过 一 些 有 效 链 接 
或 中 止 于 “ 坏 数 据 ”。 


强大 的 HTML 解 析 库 可 以 解决 这 个 问题 。 


12.7 使 用 BeautifulSoup 解 析 HTML 


已 有 许多 Python 库 可 以 帮助 你 解析 HTML 与 抽取 页 面 中 的 数据 。 每 个 Python 库 都 有 优 缺 点 ， 
根据 需要 进行 选择 。 


举例 来 看 ， 我 们 使 用 BeautifulSoup 来 简单 解析 一 些 HTML 输 入 和 抽取 链接 。 从 
http://www.crummy.com 网 站 下 载 和 安装 BeautifulSoup 代 码 。 


你 可 以 下 载 和 安装 BeautifulSoup， 或 简单 地 将 BeautifulSoup.py 放 在 你 的 程序 文件 夹 下 。 


HTML 与 XML 看 起 来 很 像 ， 有 一 些 网 页 被 精心 构造 为 XML。 一 般 而 言 ， 大 多 数 HTML 会 被 XML 
解析 器 认为 是 格式 不 正确 而 整体 拒绝 ， 导 致 解析 失败 。BeautifulSoup 极 大 容忍 了 HTML 的 缺 
陷 ， 依 然 让 你 能 轻易 抽取 所 需 的 数据 。 


我 们 使 用 urllib 读 取 页 面 ， 然 后 根据 锚 标 签 抽 取 href 属 性 的 内 容 。 


import urllib 
from BeautifulSoup import * 


url = raw_input('Enter - ') 
html = urllib.urlopen(url).read() 
soup = BeautifulSoup(html) 


# Retrieve all of the anchor tags 
tags = soup('a') 
for tag in tags: 

print tag.get('href', None) 


该 程序 提示 输入 一 个 网 址 ， 然 后 打开 网 页 ， 读 取 和 与 传递 数据 到 BeautifulSoup 解 析 器 ， 接 下 
来 ， 检 索 所 有 的 锚 标 签 ， 打 印 出 每 个 标签 的 href 属 性 内 容 。 


python urllinks.py 
Enter - http://www.dr-chuck.com/pagel1.htm 
http://www.dr-chuck.com/page2.htm 


python urllinks.py 

Enter - http://www.py4inf.com/book.htm 
http://www.greenteapress.com/thinkpython/thinkpython.html 
http://allendowney.com/ 

http://www.si502.com/ 
http://www.1ib.umich.edu/espresso-book-machine 
http://www.py4inf .com/code 

http://www.pythonlearn.com/ 


使 用 BeautifulSoup 取 出 每 个 标签 的 不 同 部 分 ， 代 码 如 下 : 


Import urllib 
from BeautifulSoup import * 


url = raw_input('Enter - ') 
html = urllib.urlopen(url).read() 
soup = BeautifulSoup(html) 


# Retrieve all of the anchor tags 
tags = soup('a') 
for tag in tags: 
# Look at the parts of a tag 
print 'TAG:',tag 
print 'URL:',tag.get('href', None) 
print 'Content:',tag.contents[0] 
print 'Attrs:',tag.attrs 


python urllink2.py 

Enter - http://www.dr-chuck.com/pagel1.htm 

TAG: <a href="http://www.dr-chuck.com/page2.htm"> 
Second Page</a> 

URL: http://www.dr-chuck.com/page2.htm 

Content: [u'\nSecond Page'] 

Attrs: [(u'href', u'http://www.dr-chuck.com/page2.htm')] 


这 些 例 子 仅 揭 开 了 BeautifulSoup 解 析 HTML 功 能 的 冰山 一 角 。 更 多 内 容 详 见 
http://www.crummy.com 文 档 与 示例 。 


12.8 使 用 urllib 读 取 二 进 制 文件 


有 时 ， 你 需要 检索 非 文本 〈 二 进 制 ) 文件 ， 如 图 像 或 视频 文件 。 这 些 文件 的 数据 直接 打印 输 
出 是 没有 用 的 ， 但 可 以 通过 urllib 将 URL 指 向 的 文件 保存 在 本 地 硬盘 。 


该 模式 打开 URL， 使 用 read 方 法 下 载 整 个 文档 内 容 ， 将 其 存 入 一 个 字符 串 变量 (如 img) ， 然 
后 将 变量 内 容 写 入 本 地 文件 。 程 序 代码 如 下 : 


img = urllib.urlopen('http://www.py4inf.com/cover .jpg').read() 
fhand = open('cover.jpg', 'w') 

fhand.write(img) 

fhand.close() 


该 程序 通过 网 络 读 取 所 有 数据 ， 将 它 存 在 计算 机 内 存 的 img 变 量 中 ， 然 后 打开 文件 coverjpg， 
将 数据 写 和 到 硬盘 中 。 如 果 文 件 大 小 小 于 计算 机 内 存 容 量 ， 这 个 程序 将 会 成 功 运行 。 


然而 ， 如 果 是 一 个 大 型 音频 或 视频 文件 ， 当 计算 机 耗 尽 内 存 时 ， 这 个 程序 可 能 会 崩溃 或 运行 
极为 缓慢 。 为 了 避免 耗 尽 内 存 ， 我 们 以 区 块 (或 缓冲 区 ) 检索 数据 ， 在 检索 下 一 个 区 块 前 将 
当前 区 块 写 信 磁盘。 这 样 一 来 ， 程 序 就 可 以 读 取 任 意 大 小 的 文件 ， 无 需 担 心 耗 尽 计算 机 的 全 
部 内 存 。 


import urllib 


img = urllib.urlopen('http://www.py4inf.com/cover .jpg') 
fhand = open('cover.jpg', 'w') 
size = 0 
while True: 
info = img.read(100000) 
If len(info) < 1 : break 
size = size + len(info) 
fhand.write(info) 


print size,'characters copied.' 
fhand.close() 


在 这 个 示例 中 ， 每 次 读 取 100,000 个 字符 ， 从 网 络 检索 下 一 批 100,000 个 字符 数据 之 前 ， 先 将 
这 些 字符 写 入 cover.jpg 文 件 。 


程序 运行 结果 如 下 : 


python cur12.py 
568248 characters copied. 


如 果 是 Unix 或 Mac 计 算 机 ， 你 可 以 使 用 操作 系统 内 置 命令 来 执行 这 个 操作 : 


curl -0 http://www,.py4inf.com/cover ,jpg 


curl 命 倒是 “copy URL "的 缩写 ， 这 两 个 例子 文件 命名 为 curl1.py 和 curl2.py， 可 以 从 
http:Wwww.py4inf.com/code 下 载 。 它 们 实现 了 culr 命 令 相 似 的 功能 。curl3.py 示 例 程序 以 更 高 
效 的 方式 完成 二 进 制 文件 的 读 写 ， 这 种 模式 可 能 对 你 自己 编写 程序 时 有 所 帮助 。 


12.9 术语 


BeautifulSoup : 一 个 用 于 HTML 文 档 解 析 与 数据 抽取 的 Python 库 。 它 能 够 处 理 大 多 数 在 浏览 
器 中 通常 被 忽略 的 ， 存 在 缺陷 的 HTML。BeautifulSoup 代 码 http:/ 从 www.crummy.com 网 站 下 
载 。 


端口 : 当 和 与 服务 器 建立 套 接 字 连接 时 ， 服 务 器 告诉 应 用 程序 进行 通讯 所 采用 的 数字 。 例 如 ， 
网 络 流量 通常 使 用 80 端 口 ， 电 子 邮件 流量 使 用 25 端 口 。 


抓 取 : 把 程序 伪装 成 网 络 浏览 器 ， 检 索 网 页 ， 查 找 网 页 中 的 内 容 。 通 常 ， 程 序 会 根据 一 个 网 
页 中 的 链接 找到 下 一 个 网 页 ， 实 现 对 网 页 网 络 或 社交 网 络 的 通 历 。 


套 接 字 : 两 个 应 用 程序 之 间 的 网 络 连接 ， 彼 此 可 以 发 送 与 接收 数据 。 


息 虫 : 网 络 搜索 引擎 的 检索 页 面 ， 然 后 从 该 页 面 所 有 链接 再 次 发 起 检索 ， 如 此 往复 下 去 ， 直 
到 它们 检索 到 网 络 上 的 几乎 所 有 页 面 。 这 些 页 面 将 用 于 构建 索引 ， 供 搜索 之 用 。 


12.10 练习 


习题 12.1 修改 套 接 字 程 序 socket1.py， 提 示 用 户 输 入 URL， 让 它 可 以 读 取 任 何 网 页 。 你 可 以 
使 用 split(/) 拆 分 URL， 抽 取出 套 接 字 connect 调 用 的 主机 名 。 使 用 try 和 except 增 加 错误 检查 ， 
处 理 用 户 输入 不 恰当 的 网 址 或 不 存在 的 URL 这 两 种 情况 。 


习题 12.2 修改 套 接 字 程序 ， 统 计 它 所 接收 到 的 字符 数 ， 当 显示 了 3000 个 字符 之 后 停止 显示 其 
他 字符 。 该 程序 应 检索 整个 文档 ， 统 计 字 符 总 数 并 显示 在 文档 结尾 。 


习题 12.3 使 用 urllib 重 复 之 前 的 练习 : (1) 从 URL 中 检索 文档 ; (2) 显示 3000 个 字符 ; 
(3) 统计 文档 的 字符 总 数 。 这 里 不 必 担 心头 部 信息 ， 只 显示 文档 内 容 中 前 3000 个 字符 即 可 。 


习题 12.4 修改 ulrlinks.py 程 序 ， 对 检索 到 的 HTML 文 档 抽取 和 统计 段落 标签 (p)， 在 程序 输出 中 
显示 段落 数量 。 不 要 显示 段落 文本 ， 仅 统计 段落 总 数 。 在 简单 网 页 和 复杂 网 页 上 测试 该 程 
序 。 


习题 12.5 ( 进 阶 ) 修改 socket 程 序 ， 使 其 只 显示 头 部 和 空 行 之 后 的 检索 数据 。 请 记 住 ，recv 
是 按照 字符 (包括 换行 及 所 有 ) 而 非 行 来 接收 的 。 
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掌握 了 通过 HTTP 编 写 文档 检索 与 解析 程序 之 后 ， 接 下 来 为 我 们 自己 创建 的 文档 ， 开 发 一 种 其 
他 应 用 程序 可 调用 的 文档 服务 ， 这 就 不 是 一 件 很 苦难 的 事情 了 。 这 里 说 的 文档 不 是 显示 在 网 
络 浏览 器 中 的 HTML 网 页 。 


网 络 数据 交换 包括 两 种 常见 格式 : 可 扩展 标记 语言 XML (eXtensible Markup Language) 和 
JSON (JavaScript Object Notation) 。XML 已 经 使 用 很 长 时 间 ， 适 合 于 交换 文档 类 型 的 数 
据 。 当 程序 彼此 之 间 只 需要 交换 字典 、 列 表 或 其 他 内 部 信息 时 ， 一 般 会 使 用 JSON。 接 下 来 分 
别 介绍 这 两 种 格式 。 


13.1 可 扩展 标记 语言 XML 


XML 与 HTML 看 起 非常 像 ， 但 XML 比 HTML 的 结构 化 程度 更 高 。 下 面 是 一 个 XML 文档 示例 : 


<person> 
<name>Chuck</name> 
<phone type="intl1"> 
+1 734 303 4456 
</phone> 
<email hide="yes"/> 
</person> 


通常 可 以 把 XML 文 档 想象 成 一 个 树 结构 ， 这 样 有 助 于 理解 。 示 例 中 顶层 标签 是 person， 其 他 
标签 是 它 的 子 节点 ， 如 phone。 


Chom CBhoney ss Cemaly 
~ 
| | | 
13.2 XML 解 析 


下 面 是 一 个 简单 的 示例 程序 ， 对 XML 文 件 进 行 解析 ， 从 中 提取 一 些 数据 元 素 : 





import xml.etree.ElementTree as ET 


data = "' 

<person> 
<name>Chuck</name> 
<phone type="intl1"> 

+1 734 303 4456 

</phone> 
<email hide="yes"/> 

</person>"™" 


tree = ET.fromstring(data) 


print 'Name:',tree.find('name').text 
print 'Attr:',tree.find('email').get('hide') 


调用 fromstring 将 XML 的 字符 串 表示 转换 为 一 棵 XML 节 点 树 。 当 XML 被 视 为 一 棵 树 ， 我 们 就 有 
一 系列 方法 来 抽取 XML 中 的 数据 片段 。 


使 用 find 画 数 对 XML 树 进行 搜索 ， 检 索 出 匹配 特定 标签 的 节点 。 每 个 节点 包含 一 些 文本 ， 一 
属性 (例如 隐藏 的 ) 以 及 一 些 子 节点 。 每 个 节点 都 可 以 成 为 节点 树 的 顶点 。 


Name: Chuck 
Attr: yes 


XML 解析 器 ， 例 如 ElementTree， Eee 让 我 们 无 需 操 心 XML 语法 规 
则 就 可 以 抽取 需要 的 XML 数据 片段 。 由 于 示例 的 XML 结构 过 于 简单 ， 体 现 不 出 这 一 优势 


13.3 节操 循环 


通常 ，XML 会 拥有 多 个 节点 ， 我 们 需要 写 一 个 循环 来 处 理 所 有 节点 。 下 面 的 程序 使 用 循环 找 
出 user 节 点 : 


import xml.etree.ElementTree as ET 


input = "" 
<stuff> 
<users> 
<user x="2"> 
<id>001</id> 
<name>Chuck</name> 
</user> 
<user x="7"> 
<id>009</id> 
<name>Brent</name> 
</user> 
</users> 
</stuff>"" 


stuff = ET.fromstring(input) 
lst = stuff.findall('users/user') 
print 'User count:', len(lst) 


for item in lst: 
print 'Name', item.find('name').text 
print 'Id', item,.find('id').text 
print 'Attribute', item.get('x') 


使 用 Python 列 表 来 表示 XML 树 中 user 结 构 的 子 树 ， findall 方 法 检索 这 个 列表 。 然 后 ， 编 写 一 
个 循环 ， 检 索 出 每 一 个 user 节 点 ， 打 印 出 name 和 id 的 文本 元 素 ， 以 及 user 节 点 的 x 属 性 值 。 


User count: 2 
Name Chuck 

Id 001 
Attribute 2 
Name Brent 

Id 009 
Attribute 7 


13.4 JavaScript 对 象 标记 - JSON 


JSON 格 式 的 灵感 来 自 于 JavaScript 语 言 的 对 象 与 数组 格式 。Python 的 出 现 早 于 JavaScript， 
Python 的 字典 与 列表 语法 对 JSON 语 言 有 一 定 影响 。 所 以 ，JSON 格 式 可 视 为 Python 列表 与 字 
典 的 组 合 。 


上 面 的 XML 示例 使 用 JSON 格 式 来 表示 ， 如 下 代码 所 示 ， 两 者 大 致 等 价 : 


"name” : "Chuck", 
"phone™" : { 
"type” ; "int1", 
"number™ : "+1 734 303 4456" 
}, 
"email" : { 
"hide” : "yes” 
} 


} 


你 会 注意 到 一 些 差异 。 首 先 ，XML 中 “phone” 标 签 有 一 个 “intP 属 性 ， 在 JSON 里 处 理 成 键 值 
对 。 另 外 ，XML 的 "person" 标 签 没 有 了 ， 取 而 代 之 的 是 一 组 大 括号 。 


由 于 JSON 比 XML 功能 少 ， 所 以 JSON 的 结构 比 XML 简 单 。 但 是 ，JSON 的 优势 在 于 ， 它 直接 
映射 成 字典 与 列表 的 组 合 。 几 乎 所 有 编程 语言 与 Python 的 字典 和 列表 都 存在 某 种 程度 上 的 等 
价 关 系 ， 所 以 JSON 是 两 个 协作 应 用 程序 之 间 非 常 合适 的 数据 交换 格式 。 


与 XML 相 比 ，JSON 相 对 简单 ， 正 迅速 成 为 应 用 程序 之 间 数 据 交 换 格 式 的 不 二 选择 。 


13.5 JSON 解 析 


通过 字典 (对象) 与 列表 的 嵌 套 来 构造 我 们 需要 的 JSON。 这 个 示例 中 用 户 的 列表 由 键 值 对 集 
合 组 成 (也 就 是 一 个 字典 ) 。 因 此 ， 我 们 有 了 一 个 字典 列表 。 


在 下 面 的 程序 中 ， 我 们 使 用 内 置 的 json 库 来 解析 JSON， 污 取 其 中 的 数据 。 仔 细 上 比较 等 价 的 
XML 数据 和 上 面 的 代码 ， 有 一 点 必须 提前 知晓 ，JSON 的 细节 较 少 。 我 们 最 终 得 到 的 列表 包含 
用 户 信 息 ， 每 个 用 户 的 信息 是 键 值 对 集合 。JSON 的 优点 是 格式 简洁 ， 缺 点 是 自 描述 能 力 不 
强 。 


Import json 


input = "" 
[ 
00L 
x 人 
name”: "Chuck" 
】 ， 
di "909 
Xe ye 
name" : "Brent" 
} 


2 


info = json.loads(input) 
print "User count:', len(info) 


for item in info: 
print 'Name', item['name'] 
print 'Id', item['id'] 
print 'Attribute', item['x'] 


从 解析 后 的 JSON 与 XML 分 别 抽取 数据 的 两 段 代 码 进行 比较 ， 你 会 发 现 json.loads() 得 到 一 个 
Python 列表 ， 通 过 for 循 环 进行 通 历 ， 列 表 的 每 个 数据 项 是 一 个 Python 字典 ， 其 中 使 用 了 
Python 索引 操作 符 来 抽取 每 个 用 户 的 各 个 字 节 。JSON 经 过 解析 后 ， 我 们 就 得 到 了 原生 的 
Python 对 象 与 结构 。 由 于 返回 的 数据 就 是 简单 的 原生 Python 结构 ， 就 没 必 要 使 用 JSON 库 继续 
深入 解析 JSON 了 。 


程序 执行 结果 如 下 ， 与 上 面 的 XML 版 本 几乎 相同 。 


User count: 2 
Name Chuck 

Id 001 
Attribute 2 
Name Brent 

Id 009 
Attribute 7 


总 之 ，Web Service 的 行业 发 展 趋势 是 从 XML 转向 JSON。 由 于 JSON 足 够 简单 ， 能 够 直接 映 
射 到 编程 语言 已 有 的 原生 数据 结构 ，JSON 的 使 用 让 解析 与 数据 抽取 变 得 更 简单 。 但 是 ，XML 
比 JSON 在 自我 描述 方面 更 强 ， 因 此 在 某 些 应 用 程序 中 XML 仍然 有 一 定 优势 。 例 如 ， 大 多 数 文 
字 处 理 器 内 部 存储 文档 采用 XML 而 不 是 JSON。 


13.6 应 用 编程 接口 API 


我 们 已 经 学 习 了 通过 超 文本 传输 协议 HTTP 在 应 用 程序 之 间 交 换 数 据 ， 了 解 了 使 用 XML 与 
JSON 在 这 些 应 用 程序 之 间 发 送 与 接收 复 条 数据 的 表示 方法 。 


下 一 步 是 使 用 这 些 技 术 在 应 用 程序 之 间 定 义 与 签订 “合同 ”。 应 用 程序 之 间 合 同 的 一 般 名 称 是 应 
用 程序 接口 或 APls。 当 我 们 使 用 一 个 API， 应 用 程序 通常 会 提供 一 组 可 供 其 他 应 用 程序 使 用 的 
服务 。 应 用 程序 发 布 的 APls 〈 即 “规则 ”) 在 访问 服务 时 必须 遵守 。 


当 我 们 开始 构建 自己 的 应 用 程序 ， 功 能 上 要 能 访问 其 他 应 用 程序 提供 的 服务 ， 这 种 方式 称 为 
面向 服务 的 架构 SOA (Service-Oriented Architecture) 。SOA 方 式 是 应 用 程序 使 用 其 他 点 用 
程序 服务 的 总 称 。 非 SOA 方 式 是 应 用 程序 作为 单一 独立 的 程序 ， 自 身 包 含 程序 运行 中 所 需 的 
所 有 代码 。 


互联 网 应 用 中 存在 许多 SOA 实 例 。 我 们 可 以 在 一 个 网 站 上 完成 旅行 机 票 与 酒店 预定 以 及 租车 
等 一 系列 活动 。 酒 店 数据 没有 存储 在 航空 公司 的 计算 机 上 。 相 有 反 ， 航 空 公司 的 计算 机 与 酒店 
的 计算 机 签订 服务 合同 ， 检 索 酒 店 数据 ， 并 呈现 给 用 户 。 当 用 户 使 用 航空 公司 的 网 站 预订 了 
一 家 酒店 ， 航 空 公司 的 网 站 使 用 酒店 系统 的 Web Service 来 完成 这 笔 预 订 。 当 涉及 整个 交易 的 
信用 卡 支付 时 ， 仍 然 会 有 其 他 计算 机 参与 到 这 个 过 程 。 
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面向 服务 的 架构 拥有 许多 优点 ， 其 中 包括 : (1) 数据 始终 只 存在 一 处 ， 这 对 酒店 预订 这 类 情 
况 来 说 特别 重要 ， 我 们 不 希望 出 现 多 次 提交 ; (2) 数据 的 拥有 者 能 够 设置 数据 的 使 用 规则 。 
基于 这 些 优 点 ，SOA 系 统 必 须 精心 设计 ， 以 达到 具备 良好 的 性 能 与 满足 用 户 的 需求 。 


应 用 程序 通过 网 络 发 布 一 组 可 用 的 API 服 务 ， 我 们 称 之 为 Web Services。 


13.7 Google 地 理 编码 Web Service 


Google 的 Web Service 非 常 优 秀 ， 让 我 们 能 充分 利用 其 庞大 的 地 理 信息 数据 库 。 我 们 可 以 向 
Google 的 地 理 编码 API 提 交 闭 如 “Ann Arbor MP" 这 样 的 地 理 搜 索 字 符 串 。Google 会 根据 搜索 字 
符 串 返回 最 佳 猜测 ， 在 地 图 上 告诉 我 们 想 找 的 地 方 以 及 附近 的 地 标 性 建筑 。 


地 理 编码 服务 是 免费 的 ， 但 有 访问 次 数 限制 ， 不 能 在 商业 应 用 程序 中 无 限制 使 用 。 如 果 有 一 
些 调 查 数据 ， 其 中 被 调查 者 在 自由 格式 的 输入 框 中 输入 了 一 个 地 址 ， 你 就 可 以 使 用 这 个 API 清 
洗 这 些 数 据 ， 效 果 会 很 不 错 


当 使 用 类 似 Google 地 理 编码 API/ 的 免费 AP/ 时 ， 你 需要 遵守 这 些 资源 的 使 用 规定 。 如 果 有 太 多 
用 户 洲 用 APl/，Google 会 关闭 或 大 幅度 缩减 这 项 鲍 费 服务 。 


通过 阅读 这 项 服务 的 在 线 文档 了 解 使 用 方法 。 不 过 ， 这 个 操作 非常 简单 ， 可 以 直接 在 浏览 器 
中 测试 ， 在 地 址 栏 输入 如 下 URL : 


http://maps.googleapis.com/maps/api/geocode/json?sensor=false &address=Ann+Arbor%2C+MI 


粘贴 到 浏览 器 之 前 ， 确 保 是 原始 的 URL， 移 除 URL 中 的 任何 空格 。 


下 面 是 一 个 简单 应 用 程序 ， 提 示 用 户 输入 一 个 搜索 字符 串 ， 调 用 Google 的 地 理 编码 API， 从 返 
回 的 JSON 中 抽取 信息 。 


import urllib 
import json 


serviceurl = 'http://maps.googleapis.com/maps/api/geocode/json?' 


while True: 
address = raw_ input('Enter location: ') 
If len(address) < 1 : break 


Url = serviceurl + urllib.urlencode({'sensor':'false', 
'address': address}) 

print 'Retrieving', url 

uh = urllib.urlopen(url1) 

data = uh.read() 

print "Retrieved' ,len(data)，'characters 


try: js = json.loads(str(data)) 

except: js = None 

if 'status' not in js or js['status'] != 'OK': 
print '==== Failure To Retrieve ====" 
print data 
continue 


print json.dumps(js, indent=4) 


lat = js["results"][0]["geometry"]["location"]["lat"] 
lng = js["results"][0]["geometry"]["location"]["lng"] 
print 'Jlat',]lat,'lng',1lng 

location = js['results'][90]['formatted_address'] 
print location 


该 程序 获取 输入 的 搜索 字符 串 ， 将 其 作为 合适 的 编码 参数 ， 构 建 URL， 使 用 urllib 从 Google 地 
理 编码 API 检 索 文 本 内 容 。 与 固定 的 网 页 不 同 ， 这 里 得 到 的 数据 取决 于 发 送 的 参数 与 Google 服 
务 器 中 存储 的 地 理 数据 。 


一 旦 获取 到 JSON 数 据 ， 我 们 使 用 json 库 对 其 进行 解析 ， 做 一 些 检 查 以 确保 收 到 良好 的 数据 ， 
然后 抽取 我 们 需要 的 数据 。 


程序 执行 结果 如 下 (下 面 只 展示 了 返回 的 部 分 JSON 数 据 ) 


$ python geojson.py 

Enter location: Ann Arbor, MI 

Retrieving http://maps.googleapis.com/maps/api/ 
geocode/json?sensor=false&address=Ann+Arbor%2C+MI 

Retrieved 1669 characters 


{ 
"status": "OK", 
“mesults | 
{ 
"geometry": { 
"Jocation_type": "APPROXIMATE", 
"location": { 
"Jat": 42.2808256, 
"Jng": -83.7430378 
} 
}, 
"address_components": [ 
{ 
"Jong_name": "Ann Arbor", 
"types": [ 
localmtey, 
"political" 
]， 
"short_name": "Ann Arbor" 
} 
]， 
"formatted address": "Ann Arbor, MI, USA", 
"types": [ 
"locality", 
"political" 
] 
} 
] 
} 


lat 42.2808256 lng -83.7430378 
Ann Arbor, MI, USA 
Enter location: 


你 可 以 下 载 http://www.py4inf.com/code/geojson.py 和 http://www.py4inf.com/code/geoxml.py 
两 个 文件 ， 搞 清楚 Google 地 理 编 码 API 的 JSON 与 XML 之 间 的 差别 。 


13.8 安全 与 API 用 法 


通常 情况 下 ， 你 需要 某 种 类 型 的 API 密 钥 才 能 访问 服务 提供 者 的 API。 这 样 设计 的 初衷 是 服务 
提供 者 想 要 知道 谁 在 使 用 他 们 的 服务 ， 以 及 每 个 用 户 的 使 用 情况 。 可 能 他 们 提供 免费 服务 ， 
但 会 根据 服务 层次 收费 ， 或 者 在 特定 时 间 段 限制 个 体 用 户 的 请 求 数量 。 


在 一 些 情况 中 ， 你 一 旦 得 到 API 密 钥 ， 在 调用 API 时 只 需 将 密 钥 作为 POST 数 据 的 一 部 分 ， 或 
者 作为 URL 的 一 个 参数 。 


在 另 一 些 情况 中 ， 服 务 提供 者 为 了 增加 请 求 来 源 的 保险 性 ， 他 们 希望 你 使 用 共享 密 钥 与 密码 
方式 发 送 加 密 的 签名 信息 。 互 联网 中 签名 请 求 普 表 采 用 OAuth 技 术 。 有 关 OAuth 协 议 详 见 


http://www.oauth.net。 


随 着 Twitter API 越 来 越 有 价值 ，Twitter 从 免费 公开 的 API 转 向 每 个 API 请 求 需 要 OAuth 签 名 。 值 
得 庆幸 的 是 ， 许 多 方便 的 OAuth 库 可 以 免费 使 用 。 你 可 以 不 必 阅 读 技 术 规范 和 从 需 编 写 OAuth 
的 实现 过 程 。 这 些 库 的 复杂 性 与 丰富 程度 不 一 。OAuth 网 站 提供 各 种 OAuth 库 信息 。 


下 面 一 段 示 例 程序 需要 从 http://www.py4inf.com/code 下 载 三 个 文件 twurl.py、 hidden.py、 
oauth.py 和 twitter1.py， 把 它们 放 在 一 个 文件 夹 下 。 


了 能 使 用 这 些 程序 ， 需 要 一 个 Twitter 账号 ， 让 你 的 Python 代码 作为 Twitter 的 一 个 应 用 得 以 
授权 ， 创 建 key、secret、token 与 token secret。 通 过 修改 hidden.py， 将 这 四 个 字符 串 赋 予 文 
件 中 合适 的 变量 。 


def auth() : 
return { "consumer_key"”: "h7L...GNg", 
"consumer_secret™ : "dNK...7Q", 
"token_key" : "101...GI"， 
"token_secret" : "HOyM...Bo" } 


Twitter 的 Web Service 通 过 URL 访 问 ， 如 下 所 示 : 
https://api.twitter.com/1.1/statuses/user_ timeline.json 


所 有 的 安全 信息 添加 完 毕 之 后 ， 完整 的 URL 如 下 : 


https://api.twitter.com/1.1/statuses/user_timeline.json?count=2 
&oauth_version=1.0&oauth_token=101...SGI&screen_name=drchuck 
&oauth_nonce=09239679&oauth_timestamp=1380395644 
&oauth_signature=rLK...BoD&oauth_consumer_key=h7Lu...GNg 
&oauth_signature_ method=HMAC-SHA1 


如 果 想 了 解 OAuth 安 全 需求 的 各 种 参数 合 义 ， 请 阅读 OAuth 技 术 规 范 。 


这 个 程序 访问 Twitter 时 ， 人 隐藏 了 文件 oauth.py 与 twurl.py 中 所 有 复杂 细节 。 我 们 只 需 简单 设置 
hidden.py 中 的 加 密 信息 ， 然 后 把 请 求 的 URL 发 送 给 twurl.augment() 函 数 ， 库 代码 会 帮 有 我 们 添 
加 URL 需 要 的 所 有 参数 。 


程序 (twitter1.py) 检索 了 特定 Twitter 用 户 的 时 间 线 ， 以 JSON 格 式 返回 为 一 个 字符 串 。 我 们 
仅 打 印 出 字符 串 前 250 个 字符 。 


Import urllib 
import twurl 


TWITTER_URL="'https://api.,twitter.com/1.1/statuses/user_timeline.json' 


while True: 
print " 
acct = raw_input('Enter Twitter Account:') 
if ( len(acct) <1 ) : break 
url = twurl.augment (TWITTER_URL, 
{'screen_name': acct, 'count': '2'} ) 
print 'Retrieving', url 
connection = urllib.urlopen(url) 
data = connection.read() 
print data[:250] 
headers = connection.info().dict 
# print headers 
print 'Remaining', headers['x-rate-limit-remaining'] 


程序 运行 结果 如 下 : 


Enter Twitter Account:drchuck 

Retrieving https://api.twitter.com/1.1/ 

[{"created at":"Sat Sep 28 17:30:25 +0000 2013"," 
id":384007200990982144, "id_str":"384007200990982144", 
"text":"RT @fixpert: See how the Dutch handle traffic 
intersections: http:\/\/t.co\/tIiVWtEhj4\n#brilliant", 
"source":"web", "truncated":false, "in_rep 

Remaining 178 


Enter Twitter Account:fixpert 

Retrieving https://api.twitter.com/1.1/ 

[{"created at":"Sat Sep 28 18:03:56 +0000 2013", 
"id":384015634108919808, "id_str":"384015634108919808", 
"text":"3 months after my freak bocce ball accident, 

my wedding ring fits again! :)\n\nhttps:\/\/t.co\/2XmHPx7kgX", 
"source":"web","truncated":false, 

Remaining 177 


Enter Twitter Account: 


Twitter 返回 时 间 线 数据 的 同时 ， 还 返回 了 HTTP 响 应 头 部 中 请 求 的 元 数据 。 特 殊 的 头 部 x-rate- 
limit-remaining 表 明 ， 在 短 时 间 切 断 之 前 我 们 还 能 发 起 的 请 求 数 量 ， 这 样 就 可 以 知道 每 次 API 
请 求 中 剩余 的 检索 次 数 。 


在 下 面 例 子 中 ， 我 们 检索 一 个 用 户 的 Twitter 朋友 ， 解 析 返 回 的 JSON， 抽 取 朋 友信 息 。 在 解析 
和 4 格 缩 进 的 “工整 打印 "之 后 导出 JSON 文 件 。 当 需要 抽取 更 多 字段 时 ， 导 出 的 数据 可 供 我 们 解 
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Import urllib 
import twurl 
import json 


TWITTER_URL = 'https://api.twitter.com/1.1/friends/list.]json' 


while True: 
print " 
acct = raw_input('Enter Twitter Account:') 
if ( len(acct) <1 ) : break 
url = twurl.augment (TWITTER_URL, 
{'screen_name': acct, 'count': '5'} ) 
print 'Retrieving', url 
connection = urllib.urlopen(url) 
data = connection.read() 
headers = connection.info().dict 
print 'Remaining', headers['x-rate-limit-remaining'] 
js = json.loads(data) 
print json.dumps(js, indent=4) 


for u in js['users'] : 
print u['screen_name'] 
s= u['status']['text'] 
print ' ',s[:50] 


由 于 JSON 是 Python 列 表 与 字典 的 启 套 集合 ， 我 们 可 以 组 合 使 用 索引 操作 与 for 循 环 操作 ， 使 
用 很 少 的 Python 代码 逼 历 返回 的 数据 结构 。 


程序 运行 结果 如 下 (为 方便 页 面 显 示 ， 一 些 数据 被 压缩 ) 


Enter Twitter Account:drchuck 
Retrieving https://api.twitter.com/1.1/friends 
Remaining 14 


{ 
"next_cursor": 1444171224491980205, 
“users": |[ 
{ 
"id": 662433, 
"followers count": 28725, 
"status": { 
"text": "@jazzychad I just bought one . _.", 
"created at": "Fri Sep 20 08:36:34 +0000 2013", 
"retweeted": false, 
}, 
"location": "San Francisco, California", 
"screen_name": "lJeahculver", 
"name": "Leah Culver", 
}, 
{ 
"id": 40426722, 
"followers count": 2635, 
"status": { 
"text": "RT @WSJ: Big employers like Google ...", 
"created at": "Sat Sep 28 19:36:37 +0000 2013", 
}, 
"location": "Victoria Canada", 
"screen name": "_ valeriei", 
"name": "Valerie Irvine", 
]， 
"next_cursor_str": "1444171224491980205" 
} 
leahculver 
@jazzychad I just bought one . 
_valeriei 
RT @WSJ: Big employers like Google, AT&amp;T are h 
ericbollens 
RT @lukew: sneak peek: my LONG take on the good &a 
halherzog 
Learning Objects is 10. We had a cake with the LO, 
scweeker 


Q@DeviceLabDC love it! Now where so I get that "etc 


Enter Twitter Account: 


在 输出 的 最 后 ， 我 们 看 到 for 循 环 读 取 了 Twitter 账号 drchuck 的 5 位 新 近 朋 友 ， 打 印 出 每 位 朋友 
的 最 近 状 态 。 返 回 的 JSON 中 还 有 更 多 数据 可 用 。 此 外 ， 如 果 仔 细 查 看 程序 输出 ， 你 会 发 现 ， 
特定 账号 的 “找到 他 的 朋友 "与 时 间 线 查询 在 一 个 时 间 段 的 请 求 数量 有 不 同 的 访问 限制 。 


这 些 安全 的 API 密 钥 让 Twitter 有 充分 信心 认为 ， 他 们 知道 谁 在 使 用 他 们 的 API 以 及 数据 使 用 情 
况 。 访 问 限制 让 我 们 可 以 做 一 些 简单 的 个 人 数据 检索 ， 但 不 能 用 于 构建 每 天 有 上 百 万 级 API 数 据 
访问 的 产品 。 


13.9 术语 


API : 应 用 程序 接口 一 一 应 用 程序 之 间 的 合同 ， 定 义 了 两 个 应 用 组 件 之 间 交 互 的 模式 。 
ElementTree : 用 于 解析 XML 数 据 的 Python 内 置 库 。 
JSON : JavaScript Object Notation 一 一 基于 JavaScript 对 象 语法 的 结构 化 数据 标识 格式 。 


REST : 表述 性 状态 转移 一 一 一 种 Web Service 风 格 ， 通 过 HTTP 协 议 提供 应 用 程序 间 的 资源 
访问 。 





SOA : 面向 服务 的 架构 应 用 程序 由 跨 网 络 连 接 的 组 件 组 成 。 


XML : 可 扩展 标识 语言 一 一 结构 化 数据 标识 格式 。 


13.10 练习 


习题 13.1 修改 http://www.py4inf.com/code/geojson.py 
或 http://www.py4inf.com/code/geoxml.py 文 件 ， 从 检索 到 的 数据 中 打印 出 2 位 字符 的 国家 代 
码 。 添 加 错误 检查 ， 确 保 国 家 代码 不 存在 时 的 异常 处 理 。 当 程序 正常 工作 了 ， 搜 索 “Atlantic 
Ocean"”， 让 程序 可 以 义理 不 属于 任何 国家 的 地 理 位 置 。 


第 14 章 数据 库 与 结构 化 查询 语言 SQL 


14.1 什么 是 数据 库 


数据 库 是 经 过 组 织 的 、 存 储 数据 的 文件 。 从 这 个 意义 上 讲 ， 大 多 数 数据 库 的 组 织 方式 与 字典 
类 似 ， 数 据 库 实现 键 与 值 之 间 的 了 映射。 数据库 与 字典 的 最 大 区 别 在 于 ， 数 据 库存 储 在 磁盘 
(或 其 他 永久 存储 器 ) 上 ， 程 序 运行 结束 后 数据 会 永久 存在 。 正 是 由 于 数据 库存 储 在 永久 存 
储 上 ， 它 能 存储 的 数据 远 远 多 于 字典 。 字 典 受到 计算 机 内 存 大 小 的 限制 。 

与 字典 类 似 ， 数 据 库 软件 被 设计 为 快速 保留 插入 的 与 访问 的 数据 ， 即 使 是 大 量 数据 的 情况 亦 
如 此 。 数 据 库 软 件 通 过 对 添加 的 数据 构建 索引 来 维护 性 能 ， 让 计算 机 可 以 快速 跳 转 到 特定 数 
据 项 。 


广泛 应 用 的 数据 库 系统 包括 Oracle、MySQL、Microsoft SQL Server、 PostgreSQL 和 
SQLite。 本 书 关注 SQLite， 因 为 它 是 一 个 非常 通用 的 数据 库 ， 而 且 已 经 内 建 在 Python。 
SQLite 被 设计 为 戏 入 到 其 他 应 用 程序 ， 提 供应 用 程序 内 的 数据 库 支 持 。 例 如 ，Firefox 浏 览 器 
把 SQLite 数 据 库 作为 内 部 使 用 ， 其 他 很 多 产品 也 这 样 做 。 


http://sqlite.org/ 


SQLite 非 常 适合 信息 科学 中 的 一 些 数据 处 理 问 题 ， 比 如 本 章 介绍 的 Twitter 息 虫 应 用 。 


NE 从 
14.2 数据 库 概 念 
初次 接触 数据 库 ， 可 将 其 视 为 多 个 工作 表 的 电子 表格 。 数 据 库 的 主要 数据 结构 包括 表 、 行 与 
列 。 


Table Relation 


tuple | 
J = 


column attribute 


在 关系 型 数据 库 中 ， 表 、 行 与 列 的 专业 定义 为 关系 、 元 组 与 属性 。 本 章 将 使 用 非 专业 化 术 


语 。 





14.3 SQLite 管 理 器 (Firefox 插 件 ) 


本 章 重 点 使 用 Python 对 SQLite 数 据 库 文件 进行 操作 ， 许 多 操作 可 以 用 SQLite 数 据 库 管理 器 
(一 个 Firefox 插 件 ) 更 方便 地 完成 。 免 费 下 载 地 址 如 下 : 


https://addons.mozilla.org/en-us/firefox/addon/sqlite-manager/ 


使 用 Firefox 浏 览 器 可 以 在 数据 库 中 轻松 创建 表 、 插 入 数据 、 编 辑 数 据 、 以 及 执行 简单 的 SQL 
查询 。 


从 某 种 意义 上 讲 ， 在 文本 文件 的 处 理 方面 ， 数 据 库 管理 器 与 文本 编辑 器 类 似 。 如 果 要 对 文本 
文件 进行 少量 修改 操作 ， 你 可 以 在 文本 编辑 器 中 打开 它 ， 并 根据 需要 修改 。 如 果 要 对 文本 文 
件 进行 大 量 修改 时 ， 通 常 需要 编写 一 个 简单 的 Python 程序 。 类似 的 ， 数 据 库 同 桩 存在 相同 的 
模式 。 在 数据 库 管理 器 中 执行 一 些 简单 操作 ， 在 Python 中 可 以 方便 地 处 理 一 些 复 条 操作 。 


14.4 创建 一 张 数据 库 的 表 


与 Python 的 列表 与 字典 相 比 ， 数 据 库 需 要 更 多 的 结构 定义 1。 


创建 一 个 数据 库 的 表 ， 我 们 必须 根据 每 一 列 存储 的 数据 情况 ， 预 先 在 数据 库 中 定义 表 的 每 一 
列 名 称 和 数据 类 型 。 数 据 库 软件 知道 了 每 一 列 的 数据 类 型 ， 根 据 特定 数据 类 型 ， 它 可 以 选择 
最 有 效 的 数据 存储 与 检索 方法 。 


以 下 网 址 介绍 了 SQLite 支 持 的 各 种 数据 类 型 : 
http://www.sqlite.org/datatypes.html 


一 开始 就 定义 好 数据 结构 可 能 不 是 很 方便 ， 但 是 这 样 做 的 好 多 是， 当 数 据 库 包 含 大 量 数据 可 
以 提供 快速 的 数据 访问 。 


以 下 代码 创建 了 一 个 数据 库 文 件 和 带 有 两 列 的 Tracks 表 。 


import sqlite3 


conn = sqlite3.connect('music,.sqlite3') 
cur = conn.cursor() 


cur.execute( 'DROP TABLE IF EXISTS Tracks ') 
cur.execute('CREATE TABLE Tracks (title TEXT, plays INTEGER)') 


conn.close() 


connect 操 作 建 立 了 与 当前 目录 中 music.sqlite3 数 据 库 文件 的 “连接 "。 如 果 文 件 不 存在 ， 则 创 
建 它 。 之 所 以 称 为 "连接 "， 因 为 数据 库 有 时 存储 在 单独 的 数据 库 服务 器 上 ， 与 我 们 运行 的 应 用 
程序 不 在 同一 个 服务 器 上 。 在 这 个 简单 示例 中 ， 数 据 库 作为 一 个 本 地 文件 ， 与 Python 代码 处 
在 同一 个 目录 下 。 


游标 (cursor) 类 似 一 个 文件 句柄 ， 可 以 对 数据 库 中 的 数据 执行 操作 。 当 义理 文本 文件 时 ， 
cursor() 的 调用 与 open() 方 法 相似 。 






Your 
Program 





当 有 个 游标 ， 我 们 使 用 execute() 方 法 ， 开 始 对 数据 库 的 内 容 执 行 命令 。 


数据 库 命令 使 用 专门 的 语言 ， 在 众多 数据 库 厂 商 中 间 已 经 标准 化 ， 用 户 只 需 学 习 一 种 数据 库 
语言 即 可 。 数 据 库 语 言 称 为 结构 化 查询 语言 ， 简 称 为 SQL。 


http://en.wikipedia.org/wiki/SQL 


在 这 个 例子 中 ， 我 们 对 数据 库 执行 两 条 SQL 命令 。 按 照 惯例 ， 我 们 用 大 宇 显 示 SQL 关 键 词 ， 
其 他 部 分 如 表 和 列 名 显示 为 小 写 。 


如 果 Track 表 已 经 存在 ， 第 一 条 SQL 命令 就 移 除 Tracks 表 。 这 一 做 法 可 以 让 我 们 反复 执行 相同 
的 程序 来 创建 Tracks 表 ， 而 不 会 导致 不 错 。 需 要 注意 的 是 ，DROP TABLE 命 令 会 删除 表 以 及 
数据 库 中 表 的 所 有 内 容 ， 也 就 是 说 没有 撤销 的 可 能 。 


cur.execute('DROP TABLE IF EXISTS Tracks ') 


第 二 条 命令 创建 Tracks 表 ， 包 括 文 本 型 的 title 列 与 整数 型 的 plays 列 。 


cur .execute( 'CREATE TABLE Tracks (title TEXT, plays INTEGER) ') 


现在 ， 我 们 已 经 创建 好 Tracks 表 ， 接 下 来 使 用 SQL 的 INSERT 操 作 ， 向 表 中 添加 一 些 数据 。 我 
们 再 次 与 数据 库 建 立 连 接 ， 获 得 游标 (cursor) 。 通 过 游标 执行 SQL 命 今 。 


SQL 的 INSERT 命 令 表 明 所 使 用 的 表 ， 通 过 列举 字段 来 定义 新 列 ，(title, plays) 后 面 跟 VALUES 
具体 的 列 值 ， 从 而 产生 一 个 新 行 。 我 们 指定 值 为 (?, ?)， 这 表示 实际 值 通 过 第 二 个 参数 的 一 个 
元 组 (My Way', 15) 来 传递 ， 最 后 调用 execute() 方 法 。 


import sqlite3 


conn = sqlite3.connect('music,.sqlite3') 
cur = conn.cursor() 


cur.execute('INSERT INTO Tracks (title, plays) VALUES ( ?, ? )', 
( 'Thunderstruck', 20 ) ) 

cur .execute( 'INSERT INTO Tracks (title, plays) VALUES ( ?, ? )', 
( 'My Way', 15 ) ) 

conn.commit() 

print 'Tracks:' 

cur.execute('SELECT title, plays FROM Tracks') 

for row in cur : 


print row 


cur .execute( 'DELETE FROM Tracks WHERE plays < 100°') 
conn.commit() 


cur.close() 


首先 ， 我 们 向 表 中 插入 两 行 ， 使 用 commit() 提 交 命 合 将 数据 写 入 数据 库 文件 。 


Tacks 


Thunderstruck 


My Way 





然后 ， 我 们 用 SELECT 命令 检索 刚 插入 表 中 的 行 。SELECT 命 邻 首 先 指定 (title, plays) 列 ， 
之 后 是 数据 检索 的 来 源 表 。 执行 SELECT 语句 后 ， 游 标 可 以 让 我 们 用 for 语 名 进行 循环 。 为 了 
提高 效率 ， 当 执行 SELECT 语句 时 ， 游 标 并 不 会 从 数据 库 中 读 取 所 有 数据 。 相 反 ， 数 据 是 在 
for 循 环 时 按 需 读 取 。 


程序 运行 结果 如 下 : 


Tracks : 
(u'Thunderstruck', 20) 
(u'My Way', 15) 


for 循 环 找到 两 行 ， 每 一 行 是 一 个 Python 元 组 ， 其 中 第 一 个 值 是 歌曲 名 称 (title) ， 第 二 个 值 是 
播放 次 数 (plays) 。 不 用 担心 ，title 字 符 串 以 u' 开 头 。 这 说 明 字 符 串 使 用 Unicode， 即 能 够 存 
储 非 拉丁 字符 集 。 


在 程序 末尾 ， 我 们 执行 SQL 的 DELETE 命 售 ， 删 除 刚才 创建 的 行 ， 以 便 可 以 反复 运行 这 个 程 
序 。DELETE 命 令 使 用 了 WHERE 子 句 ， 用 来 表达 一 个 选择 条 件 ， 这 样 SQL 命令 在 数据 库 中 只 
对 条 件 匹 配 的 行进 行 操作 。 在 本 示例 中 ， 条 件 应 用 于 所 有 行 ， 因 此 我 们 可 以 清空 表 ， 反 复 执 


行程 序 。 在 DELETE 命 邻 执行 后 ， 使 用 commit() 提 交 命 邻 将 数据 从 数据 库 中 删除 。 


14.5 结构 化 查询 语言 SQL 小 结 
至 此 ， 我 们 在 Python 示例 中 使 用 了 结构 化 查询 语言 ， 介 绍 了 一 些 SQL 命令 的 基本 知识 。 本 节 
专门 介绍 SQL 语言 ， 简 要 介绍 SQL 语法 。 


虽然 数据 库 行业 中 存在 众多 数据 库 厂 商 ， 但 结构 化 查询 语言 SQL 的 标准 化 使 得 不 同 广 商 之 间 
的 数据 库 系 统 可 以 进行 数据 互通 与 移植 。 


关系 型 数据 库 由 表 、 行 与 列 组 成 。 列 的 常见 字段 类 型 包括 文本 、 数 值 与 日 期 数据 。 当 创建 表 
时 ， 需 要 指明 列 的 名 称 与 字段 类 型 : 


CREATE TABLE Tracks (title TEXT, plays INTEGER) 


使 用 SQL 的 INSERT 命 令 向 表 中 插入 一 行 : 


INSERT INTO Tracks (title，plays) VALUES ('My Way', 15) 


INSERT 语 句 指 定 表 的 名 称 ， 之 后 是 想 要 插入 新 行 的 字段 ( 列 ) 的 列表 ， 然 后 是 VALUES 关 键 
词 及 其 后 面 每 个 字段 对 应 的 值 列 表 。 

SQL 的 SELECT 命令 从 数据 库 中 检索 行 与 列 。SELECT 语 名 指定 想 要 检索 的 列 ，WHERE 子 句 
用 于 筛选 出 符合 条 件 的 行 。 另 外， 可 选 的 ORDER BY 子 句 控制 返回 的 行 的 显示 顺序 。 


SELECT * FROM Tracks WHERE title = 'My Way' 


* 星 号 表示 从 数据 库 返 回 WHERE 子 句 匹 配 到 的 行 的 所 有 列 。 
请 注意 ， 与 Python 不 同 的 是 ，SQL 的 WHERE 子 句 使 用 一 个 等 号 表示 相等 ， 而 不 是 两 个 等 号 。 
WHERE 子 句 的 其 他 逻辑 操作 符 包括 <、>、 <=、 >= 和 !=， 以 及 AND、OR 与 括号 ， 这 些 可 用 
于 编写 逻辑 表达 式 。 
根据 一 个 字段 对 返回 的 行进 行 排序 的 查询 如 下 : 

SELECT title,plays FROM Tracks ORDER BY title 


要 移 除 行 ， 需 要 在 SQL 的 DELETE 语 名 增加 一 个 WHERE 子 句 。WHERE 子 句 决 定 哪些 行 可 被 
删除 : 


DELETE FROM Tracks WHERE title = 'My Way 


在 一 个 表 中 可 以 用 SQL 的 UPDATE 语 句 对 一 行 或 多 行 的 一 个 列 或 多 列 进行 更 新 。 


UPDATE Tracks SET plays = 16 WHERE title = 'My Way 


UPDATE 语 句 先 指明 待 更 新 的 表 ， 在 SET 关键 词 之 后 设置 修改 的 字段 及 其 取 值 ， 然 后 可 以 用 
WHERE 子 句 (可 选 的 ) 选择 要 更 新 的 行 。 一 个 UPDATE 语 句 会 修改 WHERE 子 句 匹配 到 的 所 
有 行 ， 若 不 指定 WHERE 子 句 ， 它 将 更 新 表 中 所 有 的 行 。 


以 上 是 数据 创建 与 维护 的 四 个 基本 SQL 命令 (INSERT、 SELECT、 UPDATE 和 
DELETE) 。 


14.6 使 用 数据 库 爬 取 Twitter 


在 本 节 中 ， 我 们 编写 一 个 简单 的 爬虫 程序 ， 通 过 Twitter 账号 采集 数据 ， 然 后 建立 数据 库 。 请 
注意 : 齐 慎 执行 这 个 程序 ， 不 要 抓 取 太 多 数据 或 长 时 间 执 行程 序 ， 这 样 会 导致 你 的 Twitter 账号 
被 封 。 

任何 类 型 的 爬虫 程序 都 面临 一 个 问题 ， 它 需要 能 被 停止 和 重启 多 次 ， 你 也 不 想 寺 失 已 获取 到 


的 数据 。 你 不 希望 总 是 在 一 开始 重 后 数据 检索 ， 因 此 把 检索 到 的 数据 存储 起 来 ， 让 爬虫 程序 
能 启动 各 份 ， 并 在 它 离 开 的 地 方 继续 检索 。 


我 们 通过 检索 一 个 用 户 的 Twitter 朋 友 及 他 们 的 状态 。 循 环 朋 友 列 表 ， 向 数据 库 添加 每 个 朋友 
的 信息 ， 以 备 后 续 检 索 。 当 处 理 了 一 个 用 户 的 Twitter 朋 友 ， 我 们 登录 数据 库 ， 检 索 朋 友 中 的 
一 个 。 重 复 这 个 操作 ， 挑 选 一 个 “未 访问 过 的 "用 户 ， 检 索 他 的 用 户 列 表 ， 添 加 列表 中 没有 的 朋 
友 ， 以 备 下 次 访问 。 


我 们 也 追踪 数据 亩 中 特定 朋友 的 出 现 次 数 ， 以 此 查看 "人 人气" 情况 。 


通过 存储 已 知 账号 的 列表 ， 不 论 是 否 检索 这 个 账号 ， 数 据 库 中 账号 的 人 气 情 况 已 经 存储 在 计 
算 机 磁盘 ， 这 样 停止 或 重启 程序 多 少 次 都 没关系 。 


这 个 程序 有 些 复杂 ， 它 基于 前 面 的 Twitter API 程 序 代码 。 


Twitter 疏 虫 程序 源 代 码 如 下 : 


Import urllib 
import twurl 
import json 
import sqlite3 


TWITTER_URL = 'https://api.twitter.com/1.1/friends/list.]json' 


conn = sqlite3.connect('spider.sqlite3') 
cur = conn.cursor() 


CuUr .execute(”' 
CREATE TABLE IF NOT EXISTS Twitter 
(name TEXT, retrieved INTEGER, friends INTEGER)"') 


while True: 
acct = raw_input('Enter a Twitter account, or quit: ') 
if ( acct == 'quit' ) : break 
if ( len(acct) <1) 
cur .execute('SELECT name FROM Twitter WHERE retrieved = 0 LIMIT 1°') 
try: 
acct = cur,fetchone()[9] 
except: 
print 'No unretrieved Twitter accounts found' 
continue 


url = twurl.augment (TWITTER_URL, 
{'screen_name': acct, 'count': '20'} ) 
print 'Retrieving', url 
connection = urllib.urlopen(url) 
data = connection.read() 
headers = connection.info().dict 
# print 'Remaining', headers['x-rate-limit-remaining'] 
js = json.loads(data) 
# print json.dumps(js, indent=4) 


cur.execute('UPDATE Twitter SET retrieved=1 WHERE name = ?', (acct, ) ) 


0 
0 
for u in js['users'] 


countnew 


countold 


friend = u['screen_name'] 
print friend 
cur ,execute( 'SELECT friends FROM Twitter WHERE name = ? LIMIT 1', 
(friend, )') 
try: 
count = cur.fetchone( )[9] 
cur .execute( 'UPDATE Twitter SET friends = ? WHERE name = ?', 
(count+1，friend) ) 
countold = countold + 1 
except: 
cur .execute("'INSERT INTO Twitter (name, retrieved, friends) 
VALUES ( ?, 0, 1 )"', ( friend, ) ) 
countnew = countnew + 1 
print 'New accounts=',countnew,' revisited=',countold 
conn.commit() 


cur.close() 


数据 库存 在 于 spider.sqlite3 文 件 中 ， 包 括 一 个 Twitter 表 。Twitter 表 的 每 一 行 包 括 账号 名 、 是 否 
检索 过 这 个 账号 的 朋友 以 及 这 个 账号 被 加 好 友 的 次 数 。 


在 程序 的 主 循环 中 ， 提 示 用 户 输入 一 个 Twitter 账号 名 或 退出 程序 。 如 果 用 户 输 入 一 个 Twitter 账 
号 ， 程 序 就 检索 朋友 列表 和 用 户 状态 ， 如 果 数 据 库 中 没有 这 个 朋友 ， 则 添加 进去 。 如 果 该 朋 
友 已 经 存在 于 列表 中 ， 我 们 对 friends 字 段 值 加 一 。 


当 用 户 按 下 回 车 键 ， 在 数据 库 中 寻找 下 一 个 还 未 检索 过 的 Twitter 账号 ， 检 索 该 账号 的 朋友 与 
状态 ， 把 添加 他 们 到 数据 库 ， 或 更 新 它们 ， 增 加 friends 字 段 的 统计 值 。 


当 获 取 到 朋友 列表 与 状态 ， 我 们 对 返回 的 JSON 中 所 有 的 user 数 据 项 进行 循环 ， 检 索 每 个 用 户 
的 screen_name。 然 后 ， 使 用 SELECT 语句 检查 screen_name 是 否 已 经 存储 到 数据 库 中 了 。 
如 果 记 录 存 在 的 话 ， 检 索 朋 友 数 (friends 字 段 ) 。 


countnew = 0 
countold = 0 
for u in js['users'] : 
friend = u['screen_name'] 
print friend 
cur.execute('SELECT friends FROM Twitter WHERE name = ? LIMIT 1', 
(friend, ) ) 
try: 
count = cur.fetchone( )[9] 
cur .execute( 'UPDATE Twitter SET friends = ? WHERE name = ?', 
(count+1，friend) ) 
countold = countold + 1 
except: 
cur.execute("'INSERT INTO Twitter (name, retrieved, friends) 
VALUES ( ?, 0, 1 )"', ( friend, ) ) 
countnew = countnew + 1 
print 'New accounts="',countnew,' revisited=',countold 
conn.commit() 


当 游 标 执行 SELECT 语句 ， 我 们 必须 检索 表 的 行 。 用 for 语 名 来 实现 ， 由 于 只 检索 了 一 行 
(LIMIT 1) ,我 们 使 用 fetchone() 方 法 获取 第 一 (也 是 唯一 ) 行 ， 这 就 是 SELECT 操作 的 结 
果 。 由 于 fetchone() 以 元 组 返回 行 ， 即 使 仅 有 一 个 字段 也 是 如 此 。 我 们 用 [0] 取 出 元 组 的 第 一 个 
值 ， 得 到 变量 count 的 当前 朋友 数 。 


如 果 获 取 成 功 ， 我 们 使 用 SQL 的 UPDATE 语 句 和 WHERE 子 句 ， 对 匹配 到 的 朋友 账号 所 在 行 的 
friends 列 值 加 一 。 请 注意 ，SQL 语 句 中 有 两 个 占 位 符 〈 即 问号 ) ， execute() 的 第 二 个 参数 是 
两 元 素 元 组 ， 其 中 的 值 会 蔡 换 SQL 的 占 位 符 。 


如 果 try 区 块 的 代码 失效 ， 可 能 是 因为 SELECT 语句 的 WHERE name = ? 子 句 没有 匹配 到 记 
录 。 在 except 区 块 ， 我 们 使 用 SQL 的 INSERT 语 句 ， 向 表 中 添加 朋友 的 screen_name， 另 外 一 
个 指示 符 表示 我 们 还 没有 获取 到 screen_name， 这 时 将 朋友 数 设 为 0。 


第 一 次 执行 程序 ， 输 入 一 个 Twitter 账号 ， 程 序 运行 结果 如 下 : 


Enter a Twitter account, or quit: drchuck 
Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 20 revisited= 0 

Enter a Twitter account, or quit: quit 


由 于 是 第 一 次 执行 a 我 们 创建 了 一 个 数据 库 文件 spider.sqlite3， 向 数 
据 库 添加 一 张 Twitter 表 。 然 后 获取 一 些 朋 友 ， 将 他 们 的 信息 存储 到 之 前 空 的 数据 库 中 。 


此 时 ， 我 们 想 要 编写 一 个 简单 的 数据 库 导出 程序 ， 用 来 查看 spider.sqlites3 文 件 : 


import sqlite3 


conn = sqlite3.connect('spider.sqlite3') 
cur = conn.cursor() 
cur.execute('SELECT * FROM Twitter') 
count = 0 
for row in cur : 
print row 
count = count + 1 
print count, 'rows.' 
cur.close() 


如 果 再 次 执行 Twitter 爬虫 程序 ， 程 序 运 行 结果 如 下 : 


(uU'opencontent '，0，1) 
(u'lhawthorn', 0, 1) 
(u'steve_coppin', 0, 1) 
(u'davidkocher', 0, 1) 
(u'hrheingold', 0, 1) 


20 rows. 


我 们 看 到 每 个 screen_name 有 一 行 ， 没 有 获取 该 字段 本 身 的 数据 ， 数 据 库 中 每 人 有 一 个 朋 
友 。 


现在 ， 在 数据 库 里 可 以 看 到 第 一 个 Twitter 账号 (drchuck) 的 朋友 已 经 获取 到 。 我 们 再 次 执行 
这 个 程序 ， 只 需 按 下 回 车 键 ， 不 用 再 输入 Twitter 账号 ， 程 序 就 会 检索 下 一 个 “未 义理 账号 "的 朋 
友信 息 。 


Enter a Twitter account, or quit: 

Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 18 revisited= 2 

Enter a Twitter account, or quit: 

Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 17 revisited= 3 

Enter a Twitter account, or quit: quit 


由 于 我 们 按 下 了 回 车 键 〈 即 没有 指定 Twitter 账号 ) ， 执 行 下 面 的 代码 : 


if ( len(acct) <1 ): 
cur.execute('SELECT name FROM Twitter WHERE retrieved = 0 LIMIT 1') 
try: 
acct = cur.fetchone( )[0] 
except: 
print 'No unretrieved twitter accounts found ' 
continue 


我 们 使 用 SQL 的 SELECT 语句 获取 第 一 个 用 户 的 名 称 (LIMIT 1) ， 但 该 用 户 的 "是 否 访问 过 " 字 
段 值 还 是 0。 我 们 还 在 try/except 区 块 中 使 用 fetchone()[0] 模 式 ， 从 检索 到 的 数据 中 抽取 
screen_name， 或 是 得 到 一 个 错误 消息 和 循环 各 份 。 


如 果 成 功 获取 到 一 个 未 处 理 的 screen_name， 检 索 该 账户 数据 的 程序 代码 如 下 : 


Url = twurl.augment(TWITTER_URL, {'screen_name': acct, 'count': '20'} ) 
print 'Retrieving', url 

connection = urllib.urlopen(url) 

data = connection.read() 

js = json.loads(data) 


cur .execute( 'UPDATE Twitter SET retrieved=1 WHERE name = ?', (acct, ) ) 


一 旦 成 功 获取 数据 ， 我 们 使 用 UPDATE 语 句 设置 retrieved 列 值 为 {1， 表 示 已 经 完成 对 该 账号 的 
朋友 检索 。 这 保证 了 不 会 重复 检索 相同 的 数据 ， 义 理 继 续 进 行 ， 最 终 形成 Twitter 朋友 网 络 。 


如 果 我 们 执行 friend 程 序 ， 按 两 次 回 车 键 ， 检 索 下 一 个 未 被 访问 的 朋友 的 朋友 ， 然 后 执行 
dumping 程 序 ， 程 序 输出 结果 如 下 : 


(u'opencontent', 1, 1) 
(u'lhawthorn', 1, 1) 
(u'steve_coppin', 0, 1) 
(u'davidkocher', ©0, 1) 
(u'hrheingold', 0, 1) 


(u'cnxorg', 0, 2) 
(u'knoop', 0, 1) 
(u'kthanos', 0, 2) 
(u'LectureTools', 0, 1) 


55 rows. 


由 此 可 见 ， 我 们 正确 记录 了 已 经 访问 过 的 Ilhawthorn 和 opencontent 两 个 账号 的 信息 。 另外 ， 
cnxorg 和 kthanos 已 经 有 了 粉丝 。 由 于 已 经 检索 了 三 个 用 户 (drchuck、opencontent 与 
Ihawthorn) 的 朋友 ， 表 中 已 有 55 行 。 


每 次 执行 程序 与 按 下 回 车 键 时 ， 它 会 选择 下 一 个 未 访问 的 账号 (这 里 的 下 一 个 账号 是 
steve_coppin) ， 获 取 他 们 的 朋友 ， 标 记 人 他们， 循环 steve_coppin 的 每 一 位 朋友 ， 将 他 们 添加 
到 数据 库 。 如 果 他 们 已 经 存在 于 数据 库 ， 更 新 他 们 的 朋友 数 。 


由 于 程序 的 数据 全 部 存储 在 数据 库 的 磁盘 上 ， 疏 虫 活动 可 以 被 任意 多 次 暂停 或 继续 ， 数 据 都 
会 去 失 。 


14.7 基础 数据 建 模 
关系 型 数据 库 的 真正 实力 在 于 ， 创 建 多 个 表 以 及 表 间 连接 。 将 应 用 数据 分 解 为 多 个 表 并 确立 
两 个 表 间 的 关系 ， 这 一 过 程 称 为 数据 建 模 。 显 示 表 与 表 间 关系 的 设计 文档 称 为 数据 模型 。 


数据 建 模 是 相对 复 末 的 技能 ， 本 节 仅 介绍 最 基础 的 关系 型 数据 建 模 。 数 据 建 模 的 更 多 细节 ， 
详 见 以 下 维基 页 面 : 


http://en.wikipedia.org/wiki/Relational_model 


让 我 们 来 看 Twitter 候 虫 程 序 ， 不 仅 统计 一 个 用 户 的 朋友 数 ， 我 们 希望 得 到 所 有 的 入 链 关 系 ， 
即 找到 特定 账号 的 所 有 粉丝 的 列表 。 


由 于 每 个 人 都 可 能 会 有 许多 粉丝 ， 所 以 不 能 简单 添加 一 列 到 Twitter 表 。 因 此 ， 我 们 新 建 一 个 
表 来 跟踪 朋友 对 。 下 面 是 新 建 表 的 一 种 方法 : 


CREATE TABLE Pals (from_friend TEXT，to_friend TEXT) 


每 当 遇 到 drchuck 的 一 个 粉丝 ， 我 们 向 表 中 插入 一 行 : 


INSERT INTO Pals (from_friend,to_friend) VALUES ('drchuck', 'lhawthorn') 


当 义 理 了 drchuck 的 20 个 朋友 的 Twitter 消息 源 (feed) ， 我 们 插入 “drchuck" 作 为 第 一 参数 的 20 
条 记录 ， 这 个 字符 串 在 数据 库 重 复出 现 了 多 次 。 


重复 的 字符 串 数 据 破坏 了 数据 库 规范 化 的 最 佳 实践 。 数 据 库 规范 化 指 相同 的 字符 串 数 据 在 数 
据 库 只 能 存在 一 你。 如果 需 要 数据 出 现 多 次 ， 要 为 数据 创建 一 个 数字 键 ， 通 过 该 键 引 用 实际 
的 数据 。 


在 实际 应 用 中 ， 字 符 串 比 整数 在 计算 机 磁 瘟 与 内 存 上 占用 更 多 空间 ， 人 处 理 器 也 需要 更 多 时 间 
进行 比较 和 排序 。 如 果 仅 有 几 百 条 数据 ， 那 么 存储 与 处 理 器 耗 时 并 没什么 问题 。 但 当 数 据 库 
中 包括 百 万 用 户 ， 以 及 可 能 的 一 亿 朋 友 链 接 ， 尽 可 能 快速 扫描 数据 就 显得 非常 重要 了 。 


我 们 把 Twitter 账号 存储 在 People 表 ， 而 不 是 之 前 示例 的 Twitter 表 。People 表 用 人 额外 的 一 列 来 
存储 与 该 Twitter 用 户 的 行 数 相关 的 数值 键 。SQLite 的 INTEGER PRIMARY KEY 这 一 特殊 的 数 
据 列 类 型 能 为 插入 的 任 一 行 自动 增加 键 值 。 


新 建 People 表 ， 包 括 一 个 额外 的 id 列 : 


CREATE TABLE People 
(Id INTEGER PRIMARY KEY, name TEXT UNIQUE， retrieved INTEGER) 


请 注意 ， 我 们 不 再 维护 People 表 每 一 行 的 朋友 数 。 当 选择 INTEGER PRIMARY KEY 作 为 id 列 
的 字段 类 型 ， 这 表明 我 们 希望 SQLite 来 管理 该 列 ， 在 插入 一 行 时 自动 赋予 唯一 的 数值 键 。 我 
们 还 添加 了 关键 词 UNIQUE， 表 示 不 允许 SQLite 为 两 个 行 插入 相同 的 值 。 


与 之 前 创建 的 Pals 表 不 同 ， 我 们 创建 了 一 个 Follows 表 ， 包 括 from_id 和 to_id 两 个 整数 列 ， 以 及 
一 个 表 级 约束 ， 表 中 from_id 和 to_id 必 须 唯一 ， 即 不 能 在 数据 库 中 插入 重复 的 行 。 


CREATE TABLE Follows 
(from_id INTEGER, to_id INTEGER, UNIQUE(from id, to_id) ) 


向 表 中 添加 UNIQUE 子 句 ， 当 试图 插入 记录 时 ， 我 们 要 求 数 据 库 强 制 执 行 这 一 套 规则 。 在 程序 
中 创建 这 些 规则 的 方便 性 稍 后 会 说 明 。 这 些 规则 避免 我 们 犯错 误 ， 并 简化 了 一 些 代 码 编写 。 


从 本 质 上 说 ，Follows 表 的 创建 实际 是 构建 了 一 个 “关系 "， 一 个 用 户 是 其 他 人 的 粉丝 ， 将 其 表 
示 成 一 个 数值 对 ， 代 表 与 他 联系 的 用 户 ， 以 及 关系 的 方向 。 


Ed- 一 一 opencontent 


drchuck = 一 区 as 一 > Ihawthom 
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14.8 多 表 编 程 
我 们 使 用 之 前 的 两 个 表 、 主 键 和 键 引用 来 重 做 Twitter 爬虫 程序 。 新 版 本 的 程序 代码 如 下 : 


import urllib 
import twurl 
import json 
import sqlite3 


TWITTER_URL = 'https://api.twitter.com/1.1/friends/list.json' 


conn = sqlite3.connect('friends.sqlitesqlite3') 
cur = conn.cursor() 


cur.execute("'CREATE TABLE IF NOT EXISTS People 

(Id INTEGER PRIMARY KEY, name TEXT UNIQUE， retrieved INTEGER)"') 
cur.execute("'CREATE TABLE IF NOT EXISTS Follows 

(from_id INTEGER, to_id INTEGER, UNIQUE(from id, to_id))"') 


while True: 
acct = raw_input('Enter a Twitter account, or quit: ') 
if ( acct == 'quit' ) : break 
if ( len(acct) <1) 
cur.execute("'SELECT id, name FROM People 
WHERE retrieved = 0 LIMIT 1"') 


try: 
(id, acct) = cur.fetchone() 

except: 
print 'No unretrieved Twitter accounts found ' 
continue 

else: 

cur .execute('SELECT id FROM People WHERE name = ? LIMIT 1'， 
(acct, ) ) 

try: 


id = cur.fetchone()[0] 
except: 

cur .execute("'INSERT OR IGNORE INTO People (name, retrieved) 
VALUES ( ?, 0)"', ( acct，) ) 

conn.commit() 

if cur.rowcount != 1 
print "Error inserting account:',acct 
continue 

id = cur.lastrowid 


url = twurl.augment (TWITTER_URL, 
{'screen name': acct, 'count': '20'} ) 
print 'Retrieving account', acct 
connection = urllib.urlopen(url1) 
data = connection.read() 
headers = connection.info().dict 
print 'Remaining', headers['x-rate-limit-remaining'] 


js = json.loads(data) 
# print json.dumps(js, indent=4) 


cur.execute('UPDATE People SET retrieved=1 WHERE name = ?', (acct, ) ) 


countnew = 0 
countold = 0 
for u in js['users'] 
friend = u['screen_name'] 
print friend 
cur .execute('SELECT id FROM People WHERE name = ? LIMIT 1', 
(friend, ) ) 


try: 
friend_id = cur.fetchone()[0] 
countold = countold + 1 
except: 
cur .execute("'INSERT OR IGNORE INTO People (name, retrieved) 
VALUES ( ?, 0)"', ( friend, ) ) 
conn.commit() 
if cur.rowcount != 1 : 
print 'Error inserting account:',friend 
continue 
friend_id = cur, lastrowid 
countnew = countnew + 1 
cur.execute("'INSERT OR IGNORE INTO Follows (from_id, to_id) 
VALUES (?, ?)"', (id, friend id) ) 
print 'New accounts="',countnew,' revisited=',countold 
conn.commit() 


cur.close() 


这 个 程序 变 得 有 些 复杂 了 ， 介 绍 了 通过 整数 键 连接 表格 的 使 用 模式 。 基 本 模式 如 下 : 


1. 创建 带 有 主键 与 约束 的 表 。 

2.， 当 一 个 用 户 〈 即 账号 名 称 ) 拥有 一 个 逻辑 键 ， 我 们 需要 用 户 的 id 值 。 根 据 People 表 中 是 否 
有 该 用 户 ，〈1) 查找 People 表 中 的 用 户 ， 获 取 该 用 户 的 id 值 ， 或 (2) 向 People 表 添 加 
用 户 ， 为 新 增 行 添加 id 值 。 

3. 插入 一 行 ， 表 示 "“ 粉 丝 "关系 。 


以 下 依次 介绍 每 一 个 步 又。 


14.8.1 数据 库 表 约束 


设计 表 结 构 时 ， 我 们 告诉 数据 库 系 统 强制 执行 一 些 规 则 。 这 些 规则 帮助 我 们 避免 出 错 ， 不 要 
把 错误 的 数据 写 入 表 中 。 创 建 表 的 代码 如 下 : 


cur.execute("'CREATE TABLE IF NOT EXISTS People 

(Id INTEGER PRIMARY KEY, name TEXT UNIQUE, retrieved INTEGER)"') 
cur.execute("'CREATE TABLE IF NOT EXISTS Follows 

(from_id INTEGER, to_id INTEGER, UNIQUE(from id, to_id))"') 


我 们 定义 People 表 中 的 name 列 必须 是 唯一 的 (UNIQUE) 。 同 时 ， 定 义 Follows 表 每 一 行 两 个 
数字 的 组 合 必须 唯一 。 这 些 约 束 避 免 了 多 次 添加 同一 个 关系 。 
以 下 代码 体现 了 这 些 约束 的 优势 : 


cur.execute("'INSERT OR IGNORE INTO People (name, retrieved) 
VALUES ( ?, 0)"', ( friend, ) ) 


我 们 在 INSERT 语 句 中 添加 OR IGNORE 子 句 ， 这 表示 如 果 有 一 个 INSERT 违 反 了 “name 必 须 唯 
一 "的 规则 ， 那 么 数据 库 将 忽略 这 个 INSERT。 数 据 库 约束 作为 一 个 安全 网 络 ， 确 保 我 们 不 会 
在 无 意 中 犯 错 。 


同样 地 ， 以 下 代码 确保 不 会 重复 添加 同一 个 Follows 关 系 。 


cur.execute("'INSERT OR IGNORE INTO Follows 
(from_id, to_id) VALUES (?, ?)"', (id, friend_id) ) 


同样 地 ， 如 果 违 反 了 Follows 行 的 唯一 性 约束 ， 只 需 告 诉 数据 库 忽 上 略 INSERT 即 可 。 


14.8.2 检索 与 插入 一 条 记录 


当 提示 用 户 输 入 一 个 Twitter 账号 ， 如 果 账 号 已 存在 ， 我 们 必须 找到 它 的 id 值 。 如 果 People 表 中 
还 没有 该 账号 ， 我 们 必须 插 和 人 一 条 记录 ， 并 得 到 该 插入 行 的 id 值 。 


这 是 一 个 很 常见 的 模式 ， 在 前 面 的 程序 中 用 到 过 2 次 。 当 我 们 从 已 获取 的 Twitter 的 JSON 数 据 
中 获取 user 节 点 的 screen_name， 本 节 代 码 演 示 了 如 何 检索 一 个 朋友 账号 的 id。 


随 着 数据 的 累积 ， 用 户 账 号 可 能 已 经 存在 于 数据 库 中 。 我 们 需要 先 使 用 SELECT 语句 ， 检 查 
People 表 中 该 账号 是 或 否 存在 。 


如 果 try 部 分 一 切 进展 顺利 2， 我 们 使 用 fetchone() 获 取 该 记录 ， 然 后 检索 返回 的 元 组 的 第 一 个 
(也 是 唯一 ) 元 素 ， 将 其 存储 为 friend_id。 


如 果 SELECT 执 行 失败 ，fetchone()[0] 也 会 失败 ， 然 后 控制 跳 转 到 except 部 分 。 


friend = u['screen_name'] 
cur ,execute( 'SELECT id FROM People WHERE name = ? LIMIT 1'， 
(friend, ) ) 
try: 
friend_id = cur.fetchone()[0] 
countold = countold + 1 
except: 
cur .execute("'INSERT OR IGNORE INTO People (name, retrieved) 
VALBUES (79.0) (friend, ) 
conn.commit() 
If cur.rowcount != 1 : 
print 'Error inserting account:',friend 
continue 
friend id = cur.lastrowid 
countnew = countnew + 1 


如 果 以 except 代 码 结 束 ， 这 意味 着 ， 没 有 发 现 记 录 ， 必 须 插 入 新 行 。 我 们 使 用 INSERT OR 
IGNORE 仅 是 避免 出 错 ， 然 后 调用 commit() 来 强制 数据 库 对 提交 进行 更 新 。 当 写 入 完成 后 ， 我 
们 通过 cur.rowcount 检 查 有 多 少 行 受 到 影响 。 由 于 我 们 尝试 插入 一 个 单行 ， 如 果 受 影响 行 的 数 


字 不 是 1， 那 么 将 导致 错误 。 


如 果 INSERT 执 行 成 功 ， 我 们 通过 curlastrowid 找 出 数据 库 为 新 建行 赋予 的 id 列 值 。 


14.8.3 存储 朋友 关系 


一 旦 知道 了 JSON 数 据 中 Twitter 用 户 和 与 朋友 的 键 值 ， 在 Follows 表 中 插入 两 个 值 就 是 件 简单 的 
事情 了 ， 程 序 代 码 如 下 : 


cur .execute( 'INSERT OR IGNORE INTO Follows (from_id，to_id) VALUES (?, ?)', 
(id，friend id) ) 


请 注意 ， 根 据 表 格 创建 时 的 唯一 性 约束 ， 避 免 了 重复 插入 同一 个 关系 ， 然 后 在 INSERT 语 句 中 
添加 OR IGNORE。 


程序 运行 结果 如 下 所 示 : 


Enter a Twitter account, or quit: 

No unretrieved Twitter accounts found 

Enter a Twitter account, or quit: drchuck 
Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 20 revisited= 0 

Enter a Twitter account, or quit: 

Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 17 revisited= 3 

Enter a Twitter account, or quit: 

Retrieving http://api.twitter.com/1.1/friends ... 
New accounts= 17 revisited= 3 

Enter a Twitter account, or quit: quit 


从 drchuck 账 号 开始 ， 让 程序 自动 获取 下 两 个 账号 ， 并 添加 到 数据 库 。 


当 程 序 执行 完成 后 ， 以 下 是 People 和 Follows 表 的 头 几 行 : 


(1, u'drchuck', 1) 

(2, u'opencontent', 1) 
(3, u'lhawthorn', 1) 
(4, u'steve_coppin', 0) 
(5, u'davidkocher', 0) 
55 rows. 

Follows: 

(1, 2) 

(1, 3) 

(1, 4) 

(1, 5) 

(1, 6) 

60 rows. 


可 以 看 出 ，People 表 中 的 id、name 和 与 visited 字 段 ， 关 系 Follows 表 结尾 的 数字 。 在 People 表 
中 ， 我 们 看 到 前 三 个 用 户 已 经 被 访问 过 ， 他 们 的 数据 已 被 获取 。Follows 表 的 数据 表明 ， 
drchuck (用 户 1) 是 所 显示 前 五 行 的 用 户 的 朋友 。 这 是 由 于 我 们 获取 和 存储 的 第 一 个 数据 是 
drchuck 的 Twitter 朋 友 。 如 果 打 印 出 Follows 表 的 更 多 行 ， 就 会 看 到 用 户 2 和 用 户 3 的 朋友 。 


14.9 键 的 三 种 类 型 


现在 我 们 已 经 开始 构建 数据 模型 了 ， 将 数据 放 入 多 个 关联 表 中 ， 使 用 键 来 连接 这 些 表 中 的 
行 。 我 们 需要 知道 一 些 有 关键 的 术语 。 数 据 库 模 型 中 一 般 存在 三 种 类 型 的 键 。 

。 逻辑 键 是 “真实 世界 "中 可 以 检索 行 的 键 。 在 示例 数据 模型 中 ，name 字 有 段 是 一 个 逻辑 键 。 
它 是 用 户 的 屏幕 名 称 ， 在 程序 中 通过 name 字 上 段 多 次 检索 用 户 的 行 。 你 会 发 现 ， 对 一 个 过 
辑 键 添加 UNIQUE 约 束 ， 这 是 有 道理 的 。 由 于 逻辑 键 是 我 们 从 “外 部 世界 "如 何 检索 表 中 的 
一 行 ， 人 允许 表 中 存在 相同 值 的 多 行 没有 多 大 意义 。 

。 主键 通常 是 由 数据 库 自 动 赋予 的 一 个 数字 。 它 对 外 部 程序 而 言 没有 意义 ， 仅 用 于 把 来 自 
不 同 表 的 行 连接 在 一 起 。 当 我 们 检索 表 中 的 行 ， 通 常 搜索 主键 是 最 快 的 。 由 于 主键 是 整 
数值 ， 占 用 极 少 的 存储 空间 ， 能 够 快速 进行 比较 与 排序 。 在 示例 数据 模型 中 ，id 字 段 是 主 
键 。 

。 外 键 通常 是 指向 不 同 表 中 相关 行 的 主键 的 一 个 数值 。 示 例 数据 模型 中 的 外 键 是 rom_id。 


我 们 使 用 一 些 命名 惯例 ， 比 如 主键 名 为 jd， 那么 将 id 后 缀 添加 到 对 应 外 键 的 名 称 中 。 


14.10 使 用 JSON 获 取 数 所 


我 们 已 经 了 解 了 数据 库 规范 化 原则 ， 将 数据 分 成 两 个 表 ， 通 过 主键 和 外 键 将 两 个 表 连 接 起 
来 ， 然 后 通过 SELECT 将 跨 表格 的 数据 组 装 在 一 起 。 


SQL 使 用 连接 (JOIN) 子 名 把 表 重 新 连接 。 在 JOIN 子 句 中 可 以 指定 用 以 连接 表 之 间 行 的 字 
段 。 


下 面 是 带 有 JOIN 子 句 的 SELECT 语句 示例 : 


SELECT * FROM Follows JOIN People 
ON Follows.from id = People.id WHERE People.id = 1 


JOIN 子 名 表示， 从 Follows 与 People 两 个 表 中 选择 所 有 字段 。ON 子 名 表示 ， 两 个 表 怎 样 被 连 
接 在 一 起 。 选 取 People 表 的 行 ， 然 后 将 Follows 表 的 ffom_id 字 段 与 People 表 的 id 字段 值 相同 的 
行 附加 在 后 面 。 


People 


Follows 


from_id to_id 










Ilhawthorn 
steve_coppin 








drchuck 2 opencontent 
drchuck 1 1 3 lIhawthorn 
drchuck ll 1 4 steve_coppin 


连接 的 结果 是 创建 了 一 个 相当 长 的 “元 行 ”(meta-rows) ， 包 括 People 表 的 字段 与 Follows 表 中 
匹配 的 字段 。 由 于 People 表 的 id 字段 与 Follows 表 中 的 from_id 字 段 之 间 存 在 多 个 匹配 ，JOIN 会 
为 每 一 个 匹配 到 的 行 创建 一 个 元 行 ， 根 据 需 要 重复 数据 。 


多 表 数 据 库 驱 动 的 Twitter 候 虫 程序 多 次 执行 的 代码 如 下 : 






import sqlite3 


conn = sqlite3.connect('spider.sqlite3') 
cur = conn.cursor() 


cur.execute('SELECT * FROM People') 
count = 0 
print 'People:' 
for row in cur 
if count < 5: print row 
count = count + 1 
print count, 'rows.' 


cur.execute('SELECT * FROM Follows') 
count = 0 
print 'Follows:" 
for row in cur 
if count < 5: print row 
count = count + 1 
print count, 'rows.' 


cur.execute("'SELECT * FROM Follows JOIN People 
ON Follows.from_ id = People.id WHERE People.id = 2"') 
count = 0 
print "Connections for id=2:'" 
for row in cur 
if count < 5: print row 
count = count + 1 
print count, 'rows.' 


cur.close() 


在 这 个 程序 中 ， 我 们 首先 整体 导出 People 与 Follows 表 ， 然 后 导出 连接 表 的 数据 子 集 。 
程序 输出 结果 如 下 : 


python twjoin.py 
People : 

(1, u'drchuck', 1) 

(2, u'opencontent', 1) 
(3, u'lhawthorn', 1) 
(4, u'steve_coppin', 0) 
(5, u'davidkocher', 0) 
55 rows. 

Follows: 


Connections for id=2: 

(2Z7 1 udechuclke SI) 

(2, 28, 28, Uu'cnxorg', 0) 

(2, 30, 30, u'kthanos', 0) 

(2, 102, 102, u'Something6Girl', 0) 
(2, 103, 103, uUu'ja_Pac', 0) 

20 rows. 


可 以 看 出 ，People 与 Follows 表 的 列 和 带 JOIN 子 句 的 SELECT 语句 执行 后 得 到 的 结果 行 。 
最 后 一 次 选择 中 我 们 找到 “opencontent” ( 即 People.id=2) 的 朋友 账号 。 


在 最 后 一 次 选择 的 每 个 “元 行 " 中 ， 前 两 列 来 自 Follows 表 ， 之 后 是 People 表 5 个 列 中 的 3 个 。 连 
接 后 的 每 个 元 行 中 第 2 列 (Follows.to_id) 匹配 第 3 列 (People.id) 。 


14.11 小 结 


本 章 全 面 介绍 了 Python 中 数据 库 的 基本 使 用 方法 。 与 Python 字典 或 平面 文件 相 比 ， 编 写 代 码 
来 使 用 数据 库存 储 数据 更 加 复杂 。 除 非 你 的 应 用 程序 确实 需要 数据 库 功 能 ， 否 则 不 要 轻易 使 
用 。 数 据 库 的 使 用 优势 在 于 : (1) 应 用 程序 需要 在 大 量 数据 中 随机 更 新 一 小 部 分 数据 ; 

(2) 数据 量 很 大 ， 无 法 用 字典 来 存储 ， 而 且 需 要 重复 检索 信息 ; (3) 在 长 期 运行 过 程 中 希 
望 停止 或 重启 ， 数 据 可 以 得 以 保留 ， 并 在 下 次 执行 时 从 中 止 处 继续 。 


你 可 以 创建 单 表 的 简单 数据 库 ， 以 满足 多 种 应 用 需求 。 但 是 ， 大 多 数 问题 都 需要 多 个 表 和 与 跨 
表 的 行 之 间 的 链接 /关系 。 为 表 创建 链接 时 ， 需 要 进行 周全 设计 ， 遵 循 数据 库 规 范 化 原则 ， 恰 
当地 运用 数据 库 能 力 。 数 据 库 的 使 用 动机 主要 需要 处 理 大 量 数 据 ， 有 效 的 数据 建 模 让 程序 能 
快速 执行 ， 把 握 住 这 一 点 很 重要 。 


14.12 调试 


一 We 执行 Python 程序 ， 使 用 SQLite 数 
se 个 浏览 器 可 以 快速 检查 程序 是 否 正常 执行 。 


由 于 SQLite 在 同一 时 刻 会 防止 两 个 程序 对 同一 数据 的 修改 。 例 如 ， 如 果 在 浏览 器 中 打开 数据 
库 ， 修 改 数据 库 ， 在 尚未 按 下 保存 按钮 时 ， 浏 览 器 会 锁定 数据 库 文件 ， 以 防止 其 他 程序 访问 
该 文件 。 具 体 而 言 ， 如 果 数 据 库 文 件 被 锁定 ， 你 的 Python 程序 将 不 能 访问 这 个 文件 。 


一 个 解决 方法 是 ， 在 Python 党 试 访问 数据 库 之 前 ， 关 闭 数 据 库 浏 览 器 或 使 用 浏览 器 的 文件 菜 
单 来 关闭 数据 库 。 这 样 可 以 避免 数据 库 锁 定 导 致 的 Python 代码 运行 失败 问题 。 


14.13 术语 


属性 : 元 组 的 一 个 值 。 更 常见 的 提 法 是 列 或 字段 。 


约束 : 告知 数据 库 在 表 中 的 字段 或 行 上 执行 规则 。 一 个 常见 的 约束 是 保证 特定 字段 上 无 重复 
值 ( 即 所 有 值 必须 唯一 ) 。 


游标 : 执行 数据 库 的 SQL 命令 ， 并 从 数据 库 中 获取 数据 。 游 标 类 似 于 网 络 连接 中 的 套 接 字 或 
文件 读 取 的 文件 句柄 。 


数据 库 浏 览 器 : 一 种 无 需 编写 程序 ， 直 接 与 数据 库 连 接 并 进行 操作 的 软件 。 
外 键 : 指向 另 一 个 表 中 行 的 主键 的 数值 键 。 外 键 建立 了 不 同 表 中 行 之 间 的 关系 。 


索引 : 向 表 中 插入 行 时 ， 数 据 库 软件 由 于 维 折 需 要 而 产生 的 额外 数据 ， 目 的 是 提高 查询 速 
度 。 


逻辑 键 : 外 部 世界 用 来 检索 特定 行 的 键 。 例 如 ， 在 用 户 信息 表 中 用 户 的 电子 邮件 地 址 是 不 错 
的 用 户 数据 候选 逻辑 键 。 


规范 化 : 数据 模型 设计 要 保证 无 重复 的 数据 。 每 个 数据 项 只 存储 在 数据 库 的 一 个 位 置 ， 其 他 
地 方 用 外 键 来 引用 。 


主键 : 每 一 行 指定 的 数值 键 ， 用 于 当前 表 中 的 行 与 另 一 个 表 中 的 行 之 间 建 立 引 用 关系 。 数 据 
库 的 默认 配置 会 自动 为 插入 的 行 赋予 主键 。 


关系 : 数据 库 中 包含 元 组 与 属性 的 一 块 区 域 。 更 典型 的 提 法 是 “ 表 "。 
元 组 : 数据 库 中 表 的 一 个 数据 条 目 ， 包 含 一 组 属性 。 更 典型 的 提 法 是 “ 行 ”。 


1 实际 上 ，SQLite 在 列 中 存储 的 数据 类 型 具 各 一 定 灵活 性 ， 但 本 章 中 严格 定义 数据 类 
型 ， 这 样 做 让 这 些 概念 也 能 适用 于 其 他 数据 库 系 统 (如 MySQL) 。 呈 





2. 一 般 来 说 ， 以 “如 果 一 切 顺利 "开头 的 话 ， 你 会 发 现 需要 使 用 try/except。 
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至 此 ， 我 们 认识 了 Python 语言 ， 学 习 了 Python 的 基本 用 法 、 网 络 连 接 ， 以 及 使 用 数据 库 操 作 
数据 等 知识 。 


本 章 介 绍 三 个 完整 的 应 用 程序 ， 将 之 前 学 到 的 知识 整合 起 来 ， 对 数据 进行 管理 与 可 视 化 。 你 
可 以 使 用 这 些 程序 代码 来 解决 现实 问题 。 


每 个 应 用 程序 是 一 个 ZIP 文 件 ， 可 以 下 载 和 解压 到 本 地 计算 机 上 和 运行 。 


15.1 根据 地 理 编码 数据 创建 Google 地 图 应 用 


这 个 项 目 使 用 Google 的 地 理 编 码 APl 来 清洗 用 户 输入 的 大 学 地 名 ， 然 后 将 这 些 数 据 显 示 在 
Google 地 图 上 。 
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从 以 下 地 址 下 载 应 用 程序 : 
http://www.py4inf.com/code/geodata.zip 


首先 要 解决 的 问题 是 ， 免 费 的 Google 地 理 编码 API 对 每 天 的 请 求 数量 有 一 定 限制 。 如 果 数 据 过 
多 ， 可 能 需要 在 查询 过 程 中 多 次 停止 与 重启 。 这 里 ， 我 们 把 问题 分 解 成 两 个 阶段 。 


第 一 阶段 ， 按 行 读 入 where.data 文 件 中 的 调查 数据 ， 通 过 Google 获 取 地 理 编 码 信息 ， 将 其 存 
储 在 geodata.sqlite 数 据 库 。 在 对 每 个 用 户 输入 的 地 名 使 用 地 理 编 码 API 之 前 ， 我 们 需要 简单 检 
查 下 输入 的 行 是 否 有 数据 存在 。 数 据 库 具 有 本 地 缓存 功能 ， 可 以 对 地 理 编 码 数 据 进 行 缓存 ， 
这 样 就 无 需 向 Google 重 复 请 求 同 一 数据 。 


移 除 geodata.sqlite 文 件 之 后 ， 你 可 以 选择 任何 时 候 重启 这 个 过 程 。 执 行 geoload.py 程 序 ， 依 
次 读 入 where.data 文 件 的 每 一 行 ， 检 查 该 数据 在 数据 库 是 否 存 在 。 若 不 存在 ， 调 用 地 理 编码 
API 获 取 该 数据 库 ， 将 其 存储 在 数据 库 中 。 


下 面 是 数据 库 已 有 一 些 数据 的 情况 ， 程 序 运 行 结果 如 下 : 


Found in database Northeastern University 

Found in database University of Hong Kong, 

Found in database Technion 

Found in database Viswakarma Institute, Pune, India 
Found in database UMD 

Found in database Tufts University 


Resolving Monash University 

Retrieving http://maps.googleapis.com/maps/api/ 
geocode/json?sensor=false&address=Monash+University 

Retrieved 2063 characters { “resultse -0 

{uu status ou OK’, Uv results": ... 小 


Resolving Kokshetau Institute of Economics and Management 

Retrieving http://maps.googleapis.com/maps/api/ 
geocode/json?sensor=false&address=Kokshetau+Inst ... 

Retrieved 1749 characters { "results™ > 【人 

{u'status': u'OK', u'results': ... } 


前 5 个 地 名 已 经 存在 于 数据 库 中 ， 所 以 它们 被 跳 过 。 程 序 会 扫描 到 未 检索 过 的 地 名 ， 然 后 开始 
获取 数据 。 


geoload.py 可 以 随时 停止 ， 还 有 一 个 计数 器 用 来 控制 每 次 运行 中 地 理 编码 API 的 调用 上 限 。 由 
于 where.data 只 包括 几 百 个 数据 ， 所 以 无 需 设 置 日 访问 限制 。 如 果 数 据 量 很 大 ， 需 要 几 天 时 
间 的 多 次 运行 才能 获取 所 有 的 地 理 编码 数据 ， 这 种 情况 下 就 需要 设置 访问 限制 了 。 


载 人 一 些 数 据 到 geodata.sqlite 之 后 ， 你 可 以 使 用 geodump.py 程 序 对 数据 进行 可 视 化 。 此 程序 
会 读 取 数 据 库 ， 将 地 名 、 经 度 、 纬 度 转 换 成 可 执行 的 JavaScript 代 码 形式 ， 写 入 where.js 文 
件 。 


geodump.py 运 行 结果 如 下 : 


Northeastern University, ... Boston, MA 02115, USA 42.3396998 -71.08975 
Bradley University, 1501 ... Peoria, IL 61625, USA 40.6963857 -89.6160811 


Technion, Viazman 87, Kesalsaba, 32000, Israel 32.7775 35.0216667 
Monash University Clayton ... VIC 3800, Australia -37.9152113 145.134682 
Kokshetau, Kazakhstan 53.2833333 69.3833333 


12 records written to where.js 
Open where.html to view the data in a browser 


where.html 文 件 包 含 了 Google 地 图 可 视 化 所 需 的 HTML 与 JavaScript 代 码 。 它 读 入 where.js 文 
件 中 的 最 新 数据 ， 将 其 可 视 化 。where.js 文 件 格 式 如 下 : 


myData = [ 

[42.3396998, -71.08975, 'Northeastern Uni ... Boston, MA 02115 ' ] ， 
[40.6963857, -89.6160811, 'Bradley University, ... Peoria, IL 61625, USA'], 
[32.7775,35.0216667, 'Technion, Viazman 87, Kesalsaba, 32000, Israel'], 


]; 


这 个 JavaScript 变 量 是 一 个 包含 列表 的 列表 。JavaScript 列 表 常 量 的 语法 与 Python 非常 相似 ， 
你 应 该 不 会 感到 陌生 。 


在 浏览 器 中 打开 where.html 来 查看 地 图 。 鼠 标 是 浮 在 地 图 标记 点 上 可 以 看 到 地 理 编 码 API 对 应 
的 用 户 输入 的 地 名 。 如 果 打 开 where.html 文 件 看 不 到 数据 ， 你 可 能 需要 检查 浏览 器 的 
JavaScript 或 在 开发 者 控制 台 进 行 排查 。 


15.2 网 络 与 互联 可 视 化 


这 个 应 用 程序 实现 了 搜索 引擎 的 一 些 功能 。 首 先 ， 爬 取 一 部 分 网 页 集合 ， 然 后 实现 了 一 个 
Google 的 PageRank 算 法 简化 版 ， 确 定 哪 些 页 面具 有 高 连接 度 ， 最 后 ， 在 这 个 小 网 络 中 对 页 面 
等 级 与 连接 度 进 行 可 视 化 。 


下 载 和 解压 这 个 应 用 程序 : 


http://www.py4inf.com/code/pagerank.zip 


局 】 
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首先 ，spider.py 程 序 爬 取 一 个 网 站 ， 将 网 站 的 页 面 存 储 到 spidersqlite 数 据 库 ， 记 录 页 面 之 间 
的 链接 。 移 除 spidersqlite 文 件 之 后 ， 你 可 以 随时 再 次 执行 spiderpy。 


Enter web Url or enter: http://www.dr-chuck.com/ 
['http://www.dr-chuck.com'] 

How many pages:2 

1 http://www.dr-chuck.com/ 12 

2 http://www.dr-chuck.com/csev-blog/ 57 

How many pages: 


在 程序 运行 中 ， 我 们 告知 它 爬 取 一 个 网 站 ， 检 索 两 个 页 面 。 如 果 你 重 所 程序， 可 以 让 它 爬 取 
更 多 页 面 ， 它 不 会 重复 爬 取 数据 库 已 有 的 页 面 。 程 序 重 启 会 随机 检索 未 爬 取 的 页 面 ， 然 后 从 
那里 开始 。 因 此 ，spider.py 程 序 的 每 一 次 运行 都 是 累积 式 的 。 


Enter web Url or enter: http://www.dr-chuck.com/ 
['http://www.dr-chuck.com'] 

How many pages:3 

3 http://www.dr-chuck.com/csev-blog 57 

4 http://www.dr-chuck.com/dr-chuck/resume/speaking.htm 1 
5 http://www.dr-chuck.com/dr-chuck/resume/index.htm 13 
How many pages : 


一 个 数据 库 中 可 以 有 多 个 起 点 ， 在 程序 中 称 为 网络“。 该 爬虫 程序 随机 选择 网 络 中 未 访问 的 
Be 作为 下 一 个 网 页 进行 爬 取 。 


如 果 要 导出 spider.sqlite 文 件 内 容 ，spdump.py 程 序 运行 结果 如 下 : 


(5, None, 1.0, 3, u'http://www.dr-chuck.com/csev-blog') 

(3, None, 1.0, 4, u'http://www.dr-chuck.com/dr-chuck/resume/speaking.htm') 
(1, None, 1.0, 2, u'http://www.dr-chuck.com/csev-blog/') 

(1, None, 1.0, 5, u'http://www.dr-chuck.com/dr-chuck/resume/index.htm') 

4 rows. 


以 上 显示 了 入 链 的 数目 、 旧 的 页 面 排 名 、 新 的 页 面 排名 、 页 面 id 和 页 面 的 url。spdumpy 程 序 
只 显示 至 少 有 一 个 入 链 的 页 面 。 


当 数 据 库 里 已 经 保留 一 些 页 面 数据 之 后 ， 执 行 sprank.py 程 序 来 实现 页 面 排名 。 你 只 需 指 定 页 
面 排名 的 迭代 次 数 即 可 。 


How many iterations:2 

1 0.546848992536 

2 0.226714939664 
[(1，0.559)，(2，0.659)，(3，0.985)，(4，2.135)，(5，0.659)] 


再 次 导出 数据 库 ， 查 看 页 面 排名 的 更 新 情况 : 


(5, 1.0, 0.985, 3, Uu'http://www.dr-chuck.com/csev-blog') 

(3, 1.0, 2.135, 4, u'http://www.dr-chuck.com/dr-chuck/resume/speaking.htm') 
(1, 1.0, 0.659, 2 

(1, 1.0, 0.659, 5 


4 rows. 


, U'http://www.dr-chuck.com/csev-blog/') 
, U'http://www.dr-chuck.com/dr-chuck/resume/index.htm') 


sprank.py 可 以 执行 多 次 ， 它 会 在 每 次 执行 时 优化 页 面 排名 。 你 可 以 执行 几 次 sprank.py， 然 后 
用 spider.py 息 取 一 些 页 面 ， 再 执行 Sprank.py 来 收 丝 网 页 排名 值 。 搜 索引 擎 一 般 会 同时 运行 翁 
取 程序 与 排名 程序 。 


如 果 在 没有 重新 爬 取 网 页 的 情况 下 再 次 计算 网 页 排名 ， 你 可 以 用 sprest.py 程 序 重 置 ， 然 后 重 
启 sprank.py。 


How many iterations:50 
546848992536 
226714939664 
©0659516187242 
0244199333 
©0102096489546 
.00610244329379 


TD OD © © 


0.000109076928206 
9.91987599002e-05 
9.02151706798e-05 
45 8.20451504471e-05 
7.46150183837e-05 
6.7857770908e-05 
6.17124694224e-05 
5.61236959327e-05 
50 5.10410499467e-05 
[(512, 0.0296), (1, 12.79), (2, 28.93), (3, 6.808), (4, 13.46)] 


对 于 PageRank 算 法 的 每 次 迭代 ， 它 会 打印 出 每 个 页 面 排 名 的 平均 变化 。 该 网 络 在 初始 状态 非 
常 不 均衡 ， 这 是 由 于 单个 页 面 排 名 值 在 迭代 过 程 中 变化 很 大 。 经 过 一 些 迭 代 之 后 ， 页 面 排 名 
开始 收 仇 了 。 执 行 prank.py 足 够 长 时 间 之 后 ， 网 页 排名 值 就 会 相对 稳定 。 


如 果 想 要 对 网 页 排名 中 当前 靠 前 的 页 面 进行 可 视 化 ， 执 行 spjson.py 程 序 ， 读 取 数 据 库 ， 将 最 
高 连接 页 面 的 数据 转换 为 JSON 格 式 ， 可 以 在 网 络 浏览 器 中 查看 效果 。 


Creating JSON output on spider.json... 
How many nodes? 30 
Open force.html in a browser to view the visualization 


在 网 络 浏览 器 中 打开 force.html 来 查看 此 数据 。 这 是 一 个 自动 布局 的 包含 节点 与 链接 的 网 络 。 
你 可 以 点 击 和 拖 搜 任 一 节点 ， 也 可 以 双击 节点 ， 查 看 该 节点 的 URL。 


如 果 重 新 运行 其 他 工具 ， 重 新 执行 spjson.py， 在 浏览 器 中 点 击 刷新 ， 显 示 spiderjson 得 到 的 
新 数据 。 


15.3 邮件 数据 可 视 化 


读 到 这 里 ， 你 应 该 还 记得 mbox-short.txt 与 mbox.txt 这 两 个 数据 文件 。 下 面 我 们 将 深入 分 析 这 
些 电子 邮件 数据 。 


相当 长 时 间 ， 数 据 可 能 会 


在 现实 世界 中 ， 有 时 你 需要 从 服务 器 下 载 邮 件数 据 ， 这 可 能 要 花费 
绍 的 程序 是 截至 目前 最 复杂 


存在 不 一 致 ， 充 满 错误 和 需要 做 大 量 清洗 与 调整 工作 。 本 节 介 
的 ， 从 服务 器 下 载 近 1 个 G 大 小 的 数据 ， 然 后 对 其 可 视 化 。 


下 载 应 用 程序 代码 : 
http://www.py4inf.com/code/gmane.zip 
这 里 使 用 http://www.gmane.org 的 免费 电子 邮件 列表 为 档 服 务 。 由 于 该 服务 提供 了 电子 邮件 活 


动 的 为 档 ， 数 据 质量 高 且 可 搜索 ， 所 以 在 开源 项 目 中 非常 流行 。 它 的 数据 API 访 问 政策 也 比较 
宽松 ， 没 有 访问 限制 ， 但 请 不 要 过 度 使 用 ， 仅 获取 你 需要 的 数据 即 可 。 


你 可 以 在 下 面 的 网 页 中 阅读 gmane 的 条 款 与 条 件 : 
http:/gmane.org/export.php 


使 用 gmane.or9 数 据 时 需要 考虑 ， 在 访问 服务 和 长 时 间 运 行 任务 时 ， 有 义务 添加 延 时 ， 这 一 点 
非常 重要 。 不 要 滥用 这 项 免费 服务 ， 避 免 累 及 他 人 。 


使 用 该 软件 爬 取 Sakai 电 子 邮件 数据 时 ， 可 能 会 产生 约 1 个 G 的 数据 ， 运 行 需要 花费 几 天 时 间 。 
下 载 的 压缩 包 里 有 一 个 README.txt 文 件 ， 提 供 如 何 下 载 一 个 已 假 取 的 content.sqlite 副 本 的 操 
作 指 南 ， 无 需 花 费 5 天 时 间 执 行程 序 来 聆 取 数据 。contet.sqlite 包 含 了 主要 的 Sakai 电 子 邮 件 语 
料 库 。 如 果 下 载 了 预先 爬行 好 的 内 容 ， 你 仍然 可 以 执行 这 个 怜 取 进程 ， 以 获取 最 新 的 消息 。 


第 一 步 是 拒 取 gmane 为 档 库 。 在 gmane.py 中 基础 URL 是 硬 编码 的 ， 被 硬 编码 为 Sakai 开 发 者 
列表 。 通 过 修改 基础 URL 可 以 爬 取 其 他 当 档 库 。 如 果 修 改 了 基础 URL， 请 确保 删除 
content.sqlite 文 件 。 


gmane.py 文 件 作为 一 个 “负责 任 " 的 缓存 型 怜 虫 ， 有 条 不 紊 运行 ， 每 秒 检 索 一 条 邮件 信息 ， 这 
样 避免 被 gmane 封 掉 。 它 把 所 有 数据 存储 在 数据 库 ， 根 据 需要 可 以 多 次 中 断 和 重启 。 数 据 下 
载 可 能 需要 花费 几 个 小 时 。 因 此 ， 程 序 运 行 中 可 能 需要 重启 几 次 。 


gmane.py 程 序 获取 到 Sakai 开 发 者 列表 最 后 5 条 消息 如 下 所 示 : 


How many messages :10 
http://download.gmane.org/gmane.comp.cms.sakai.devel/51410/51411 9460 
nealcaidin@sakaifoundation.org 2013-04-05 re: [building ... 
http://download.gmane.org/gmane.comp.cms.sakai.devel/51411/51412 3379 
samuelgutierrezjimenez@gmail.com 2013-04-06 re: [building ... 
http://download.gmane.org/gmane.comp.cms.sakai.devel/51412/51413 9903 
dalQ@vt .edu 2013-04-05 [building sakai] melete 2.9 oracle ... 
http://download.gmane.org/gmane.comp.cms.sakai,.devel/51413/51414 349265 
m.shedid@elraed-it.com 2013-04-07 [building sakail] ... 
http://download.gmane.org/gmane.comp.cms.sakai.devel/51414/51415 3481 
samuelgutierrezjimenez@gmail.com 2013-04-07 re: ... 
http://download.gmane.org/gmane.comp.cms.sakai.devel/51415/51416 0 


Does not start with From 


该 程序 扫描 content.sqlite， 从 1 开始 ， 直 到 找到 未 被 爬 取 的 消息 的 序号 ， 然 后 开始 爬 取 那 条 消 
息 。 直 到 疏 取 到 需要 的 消息 序号 或 者 访问 到 一 个 不 符合 消息 格式 的 页 面 ， 程 序 终止 。 


有 时 候 ，gmane.org 的 消息 可 能 不 全 ， 可 能 是 管理 员 被 删除 了 或 消息 被 弄 去 了。 如 果 疏 虫 停 
止 ， 可 能 是 它 碰 到 一 条 丢失 的 消息 。 打 开 SQLite 管 理 器 ， 添 加 一 个 丢失 的 id， 其 他 字段 留 空 ， 
然后 重启 gmane.py。 这 样 他 取 进 程 就 可 以 继续 了 。 这 些 空 消 息 在 下 阶段 处 理 时 会 被 忽略 。 


一 旦 怜 取 了 所 有 消息 并 将 它们 存储 在 content.sqlite， 你 可 以 再 次 执行 gmane.py 来 获取 邮件 列 
表 上 新 发 布 的 消息 。 这 听 来 不 错 。 


content.sdqlite 的 数据 缺乏 有 效 的 数据 模型 和 未 被 压缩 ， 显 得 相当 原始 。 这 样 做 是 有 意 的 ， 它 可 
以 让 你 在 SQLite 管 sqlite， 在 爬 取 过 程 中 调试 问题 。 如 果 想 要 对 这 个 数据 
库 进 行 查询 ， 这 可 好 主意 ， 效 率 会 非常 低 。 


第 二 阶段 是 执行 gmodel.py 程 序 。 该 程序 从 content.sqlite 读 入 原始 数据 ， 进 行 数 据 清理 与 建 
模 ， 生 成 index.sqlite 文 件 。 由 于 压缩 了 标题 和 正文 ，index.sqlite 比 content.sqlite 文 件 体 积 一 般 
要 小 十 倍 。 


每 次 执行 gmodel.py， 它 都 会 删除 和 重建 index.sqlite， 人 允许 调整 参数 和 编辑 content.sqlite 里 的 
映射 表 ， 从 而 控制 数据 清洗 过 程 。 以 下 是 gmodel.py 的 执行 情况 示例 。 每 处 理 250 条 邮件 消息 
之 后 打印 一 行 ， 这 样 可 以 观察 到 一 些 程序 执行 情况 。 该 程序 会 运行 一 段 时 间 ， 期 间 处 理 近 1 个 
G 的 电子 邮件 数据 。 


Loaded allsenders 1588 and mapping 28 dns mapping 1 

1 2005-12-08T23:34:30-06:00 ggolden22@mac .com 

251 2005-12-22T10:03:20-08:00 tpamsler@ucdavis,.edu 

501 2006-01-12T11:17:34-05:00 lance@indiana.edu 

751 2006-01-24T11:13:28-08:00 vrajgopalan@ucmerced,.edu 


gmodel.py 程 序 主 要 是 执行 一 些 数 据 清理 任务 。 


域名 .com、.org、.edu 和 .net 被 截断 成 2 节 ， 其 他 域名 被 分 为 3 节 。 因 此 ，si.umich.edu 处 理 为 
umich.edu，caret.cam.ac.uk 人 处 理 为 cam.ac.uk。 另 外 ， 电 子 邮件 地 址 全 部 转 为 小 写 。 一 些 
@gmane.org 地 址 ， 如 下 所 示 : 


arwhyte-63aXycvo3TyHXe+LvDLADg@public.gmane.org 


这 样 的 邮件 地 址 如 果 和 与 语料库 中 的 真实 电子 邮件 地 址 匹配 ， 就 会 被 转换 为 真实 地 址 。 


content.sqlite 数 据 库 包 括 两 个 表 ， 人 允许 域名 与 个 人 电子 邮件 (可 能 会 发 生变 化 ) 之 间 进 行 映 
射 。 例 如 ， 在 Sakai 开 发 者 列表 中 ，Steve Githens 由 于 更 换 了 工作 ， 使 用 以 下 电子 邮件 地 址 : 


s-githens@northwestern.edu 
sgithens@cam.ac.uk 
swgithen@mtu.edu 


我 们 在 contente.sqlite 的 Mapping 表 中 添加 两 条 数据 ， 这 样 gmodel.py 就 可 以 将 3 个 电子 邮件 地 
址 映射 为 一 个 地 址 : 


s-githens@northwestern.edu -> swgithen@mtu.edu 
sgithens@cam.ac.uk -> swgithen@mtu.edu 


如 果 多 个 DNS 名 需要 映射 到 一 个 DNS 上 ， 你 也 可 以 在 DNSMapping 表 中 做 类 似 添加 。 如 下 了 映 
有 射 添加 至 到 Sakai 数 据 中 。 


iupui.edu -> indiana.edu 


这 样 ， 所 有 印第安 纳 大 学 的 校园 账号 就 可 以 集中 跟踪 了 


反复 执行 gmodel.py 来 查看 数据 ， 通 过 添加 映射 让 数据 更 加 干净 。 程 序 一 旦 完成 ， 你 会 得 到 一 
个 电子 邮件 的 素 引 版 本 ， 即 index.sqlite。 这 个 数据 库 文 件 用 于 数据 分 析 非 常 快 。 


首先 ， 做 两 个 简单 的 数据 分 析 :“ 谁 发 送 邮 件 最 多 ? ”和 “哪个 组 织 发 送 邮 件 最 。 使 用 
gbasic.py 实 现 : 


How many to dump? 5 
Loaded messages= 51330 subjects= 25033 senders= 1584 


Top 5 Email list participants 
steve.swinsburg@gmail.com 2657 
azeckoski@unicon.net 1742 
ieb@tfd.co.uk 1591 
csev@umich.edu 1304 
david,.horwitz@uct.ac.za 1184 


Top 5 Email list organizations 
gmail.com 7339 

umich.edu 6243 

uct.ac.za 2451 

indiana.edu 2258 

unicon.net 2055 


请 注意 ， 与 gmane.py 和 gmodel.py 相 比 ，gbasic.py 处 理 数 据 非 常 快 。 A 
据 上 工作 ， 但 gbasic.py 使 用 index.sqlite 中 压缩 过 和 规范 化 的 数据 。 如 果 有 大 量 数据 需 

理 ， 本 节 示 例 应 用 程序 采用 的 多 步 处理 可 能 多 用 了 一 些 开发 时 间 ， 人 
节省 了 大 量 时 间 。 


gword.py 实 现 了 主题 行 词 频 的 简单 可 视 化 : 


Range of counts: 33229 129 
Output written to gword.js 


gword.py 执 行 后 生成 gword.js 文 件 ， 通 过 gword.htm 进 行 可 视 化 ， 生 成 一 个 类 似 本 节 开 头 的 词 
云 。 


第 二 个 可 视 化 用 gline.py 生 成 。 它 计算 了 一 段 时 间 内 某 组 织 的 电子 邮件 参与 情况 。 


Loaded messages= 51330 subjects= 25033 senders= 1584 

Top 10 Oranizations 

['gmail.com', ‘'umich.edu', 'uct.ac.za', 'indiana.edu', 
'unicon.net', 'tfd.co.uk', 'berkeley.edu', 'longsight.com', 
'stanford.edu', 'ox.ac.uk'] 

Output written to gline.js 


gline.py 执 行 后 生成 gline.js 文 件 ， 通 过 gline.htm 进 行 可 视 化 。 
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以 上 是 一 个 相对 复杂 的 高 级 应 用 程序 ， 具 各 一 些 数据 检索 、 清 洗 与 可 视 化 功能 。 
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第 16 章 剃 见 任务 目 动 化 处 理 


我 们 已 经 学 习 了 从 文件 、 网 络 、Web Services 和 数据 库 中 读 取 数 据 。Python 还 可 以 通 万 计算 
机 的 所 有 目录 和 文件 夹 ， 并 读 取 这 些 文件 。 


本 章 中 编写 的 程序 会 扫描 计算 机 ， 对 每 个 文件 执行 某 些 操作 。 文 件 被 组 织 到 目录 中 ， 也 称 
为 "文件 夹 "。 简 单 的 Python 脚本 既 能 快速 解决 简单 任务 ， 也 能 应 对 目录 树 或 整个 计算 机 上 成 百 
上 王 的 文件 。 


使 用 os.walk 和 for 循 环 通 历 目 录 树 中 的 所 有 目录 和 与 文件 。 这 与 open 方 法 循环 读 取 文 件 内 容 、 套 
接 字 通过 编写 循环 读 取 网 络 连接 中 的 内 容 以 及 urllib 打 开 网 页 读 取 所 有 内 容 等 的 原理 类 似 。 


16.1 文件 名 与 路 径 


每 个 运行 中 的 程序 有 一 个 “当前 目录 ”， 作 为 大 多 数 操作 的 默认 目录 。 例 如 ， 当 打开 一 个 文件 进 
行 读 取 时 ，Python 会 在 当前 目录 下 寻找 这 个 文件 。 


os (代表 operating system， 操 作 系 统 ) 模块 提供 文件 与 目录 的 操作 功能 。os.getcwd 返 回 当 
前 目录 的 名 称 : 


>>> Import os 

>>> cwd = os.getcwd() 
>>> print cwd 
/Users/csev 


cwd 代 表 当 前 工作 目录 。 这 个 示例 程序 的 运行 结果 是 /Users/csev， 这 是 用 户 csev 的 当前 目 
录 。 


类 似 cwd 这 样 的 字符 串 表 示 的 是 路 径 。 相 对 路 径 从 当前 目录 开始 ， 绝 对 路 径 从 文件 系统 的 顶层 
目录 开始 。 


我 们 看 到 的 路 径 都 是 简单 文件 名 ， 因 此 它们 是 相对 于 当前 目录 的 。 找 到 一 个 文件 的 绝对 路 
径 ， 使 用 os.path.abspath : 


>>> os.path.abspath('memo.txt') 
'/Users/csev/memo.txt' 


os.path.exists 检 查 文件 或 目录 是 否 存在 : 


>>> os.path.exists('memo.txt') 
True 


如 果 存 在 ，os.path.isdir 检 查 是 一 个 目录 : 


>>> os.path.isdir('memo.txt') 
False 

>>> os.path,.isdir('music') 
True 


同样 地 ，os.path.isfile 检 查 它 是 否 是 一 个 文件 。 


os.listdir 根 据 指定 目录 ， 返 回 其 下 的 文件 与 子 目 录 的 列表 。 


>>> os.1listdir(cwd) 
['music', 'photos', "memo.txt'] 


16.2 示例 : 清理 照片 目录 


以 前 我 编写 过 一 个 类 似 Flickr 的 软件 ， 可 以 从 手机 上 接收 照片 ， 并 把 它们 存储 在 服务 器 上 。 我 
编写 这 个 软件 时 Flickr 还 未 出 现 ， 当 Flickr 出 现 后 ， 我 仍然 在 使 用 这 个 程序 ， 用 来 保留 原始 照 
片 。 


我 还 会 在 彩信 和 电子 邮件 标题 行 发 送 一 条 简单 的 文本 描述 。 我 特 这 些 消息 存在 一 个 文本 文件 
中 ， 放 置 在 照片 文件 所 在 的 目录 下 。 根 据 照片 拍摄 的 月 、 年 、 日 和 时 间 来 组 织 目录 结构 。 以 
下 是 照片 及 其 描述 的 命名 示例 : 


,/2006/03/24-03-06_2018002 .jpg 
,/2006/03/24-03-06_2018002 .txt 


七 年 之 后 ， 我 有 了 许多 照片 和 标题 。 这 些 年 我 更 换 过 手机 ， 从 消息 中 抽取 标题 的 代码 有 时 会 
失效 ， 服 务 器 上 出 现 了 一 些 无 用 的 数据 。 


我 想 要 通 历 这 些 文件 ， 找 出 哪些 文本 文件 是 真正 的 标题 ， 哪 些 是 垃圾 信息 ， 然 后 删除 这 些 垃 
圾 信息 。 首 务 ， 盘 点 出 子 文件 夹 下 有 多 少 文本 文件 ， 运 行 以 下 程序 : 


Import os 
count = 0 
for (dirname, dirs, files) in os.walk('.'): 
for filename in files: 
if filename.endswith('.txt') : 
count = count + 1 
print 'Files:', count 


python txtcount.py 
Files: 1917 


这 段 代 码 的 关键 是 Python 的 os.walk 库 。 当 调用 os.walk 时 ， 指 定 一 个 起 始 目 录 ， 它 会 递归 式 通 
历 所 有 的 子 目 录 。"“." 表 示 当 前 目录 ， 从 此 处 往 下 查找 。 当 它 每 遇 到 一 个 目录 ， 我 们 将 得 到 for 
循环 内 元 组 的 三 个 值 。 第 一 个 值 是 当前 目录 名 ， 第 二 个 值 是 当前 目录 的 子 目 录 列 表 ， 第 三 个 
值 是 当前 目录 的 文件 列表 。 


没 必要 依次 查看 每 个 子 目录 。 事 实 上 ， 通 过 0S.walk 来 访问 每 个 文件 夹 。 如 果 想 要 查看 每 个 文 
件 ， 编 写 一 个 简单 的 for 循 环 来 查看 当前 目录 下 的 每 个 文件 。 如 果 文 件 以 “.txt" 结 尾 ， 我 们 就 查 
看 这 个 文件 ， 并 统计 整个 目录 树 中 以 “.txt* 为 后 级 的 文件 数目 。 


一 且 知 道 了 有 多 少 文件 以 “.txt" 结 尾 ， 接 下 来 要 自动 判断 文件 的 好 坏 。 因 此 ， 我 们 编 一 个 简单 
的 程序 ， 打 印 出 文件 及 其 大 小 : 


import os 
from os.path import join 
for (dirname, dirs, files) in os.walk('.'): 
for filename in files: 
if filename.endswith('.txt') : 
thefile = os.path.join(dirname,filename) 
print os.path.getsize(thefile), thefile 


现在 ， 不 仅仅 要 统计 文件 数 ， 我 们 使 用 os.path.join 创 建 一 个 文件 名 ， 将 目录 中 的 文件 名 与 目 
录 名 连接 在 一 起 。 这 里 使 用 os.path.join， 而 不 是 用 字符 串 连 接 。 这 样 做 的 原因 在 于 : 
Windows 上 使 用 反 斜 枉 (\) 来 构造 文件 路 径 ，Linux 和 Mac 上 使 用 正 斜 杠 〈/) 来 构造 文件 路 
径 。os.path.join 知 道 如 何人 处 理 这 一 差异 ， 能 够 识别 当前 运行 的 操作 系统 ， 据 此 选择 适合 的 连 
接 。 因 此 ， 相 同 的 Python 代 码 在 Windows 和 类 Unix 系 统 上 都 能 执行 。 


一 旦 得 到 了 带 有 目录 路 径 的 完整 文件 名 ， 使 用 os.path.getsize 获 取 文 件 大 小 ， 并 打印 输出 ， 程 
序 运行 结果 如 下 : 


python txtsize.py 


18 ./2006/03/24-03-06_2303002 ,txt 
22 ./2006/03/25-03-06_1340001.txt 
22 ./2006/03/25-03-06_2034001.txt 


2565 ./2005/09/28-09-05_1043004.txt 
2565 ./2005/09/28-09-05_1141002.txt 


2578 ./2006/03/27-03-06_1618001 .txt 
2578 ./2006/03/28-03-06_2109001 .txt 
2578 ./2006/03/29-03-06_1355001 .txt 


扫 视 一 下 程序 输出 ， 我 们 注意 到 有 一 些 文件 很 短 ， 有 些 文件 非常 大 ， 还 有 一 些 相 同 大 小 的 文 
件 (2578 和 2565) 。 当 打开 一 些 大 文件 ， 我 们 发 现 它们 除了 一 些 通用 的 HTML 标 签 之 外 ， 其 
他 什么 都 没有 有。 那些 HTML 从 我 的 T-Moblie 手 机 发 送 的 消息 。 


<html> 
<head> 
<title>T-Mobile</title> 


跳 过 这 个 文件 ， 它 看 起 来 没有 包含 有 用 的 信息 ， 随 后 我 们 可 能 做 删除 处 理 。 


在 删除 这 些 文件 之 前 ， 我 们 编写 一 个 程序 ， 查 找 多 余 一 行 的 文件 ， 并 显示 文件 的 内 容 。 不 要 
被 2578 或 2565 字 符 长 度 的 文件 所 干扰 ， 因 为 我 们 已 经 知道 这 些 文件 没有 包含 有 用 信息 。 


程序 代码 如 下 : 


import os 
from os.path import join 
for (dirname, dirs, files) in os.walk('.'): 
for filename in files: 
if filename.endswith('.txt') 
thefile = os.path.join(dirname,filename) 
size = os.path.getsize(thefile) 
if size == 2578 or size == 2565: 
continue 
fhand = open(thefile,'r') 
lines = list() 
for line in fhand: 
lines.append(line) 
fhand.close() 
If len(lines) > 1: 
print len(lines), thefile 
print lines[:4] 


我 们 使 用 continue 跳 过 两 个 "大 小 不 正确 "的 文件 ， 然 后 打开 其 他 文件 ， 将 读 取 到 文件 的 内 容 放 
到 一 个 Python 列表 中 。 如 果 文 件 多 余 一 行 ， 打 印 出 文件 的 行 数 和 前 三 行内 容 。 


这 样 一 来 ， 程 序 过 滤 掉 两 个 大 小 不 正确 的 文件 。 假 设 所 有 单行 的 文件 是 正确 的 ， 那 么 我 们 得 
到 一 些 符合 要 求 的 数据 : 


python txtcheck.py 

3 ./2004/03/22-03-04_2015.txt 

[Little horse rider\r\n', “NrNn', Nr] 

2 ./2004/11/30-11-04_1834001 .txt 

['Testing 123.\n', '\n'] 

3 ./2007/09/15-09-07_074202_03.txt 

['\r\n', '\r\in', 'Sent from my iPhone\r\n'] 
3 ./2007/09/19-09-07_124857_01.txt 

['\r\n', '\r\in', 'Sent from my iPhone\r\n'] 
3 ./2007/09/20-09-07_115617_01.txt 


但 是 ， 文 件 中 还 是 存在 一 个 或 多 个 伟人 头疼 的 模式 : 有 一 些 三 行文 件 ， 包 含 两 个 空 行 ， 之 后 
跟 一 行文 字 “ 发 自我 的 Phone”， 这 样 的 数据 仍然 存在 。 因 此 ， 针 对 这 个 情况 修改 程序 如 下 : 


lines = list() 

for line in fhand: 
lines.append(line) 

if len(lines) == 3 and lines[2].startswith('Sent from my iPhone'): 
continue 

if len(lines) > 1: 
print len(lines), thefile 
print lines[:4] 


如 果 是 三 行文 件 ， 程 序 对 其 进行 检查 ; 如 果 第 三 行 以 特定 内 容 开 始 ， 则 跳 过 它 。 
现在 运行 这 个 程序 ， 我 们 看 到 还 有 4 个 多 行文 件 ， 但 这 些 文件 看 起 来 是 合理 的 : 


python txtcheck2 .py 

3 ./2004/03/22-03-04_2015.txt 

['Little horse rider\r\n', '\r\in', '\r'] 
2 ./2004/11/30-11-04_1834001 .txt 
['Testing 123.\n', '\n'] 

2 ./2006/03/17-03-06_1806001.txt 

['On the road again...\r\n', '\r\n'] 

2 ./2006/03/24-03-06_1740001.txt 

['On the road again...\r\n', '\r\n'] 


纵 观 程序 的 整体 模式 ， 通 过 接受 或 拒绝 文件 ， 对 结果 进行 清理 。 一 旦 找到 “ 坏 " 模 式 ， 使 用 
continue 跳 过 不 符合 要 求 的 文件 。 这 样 对 代码 进行 修正 ， 找 到 更 多 不 符合 要 求 的 文件 模式 。 


现在 ， 我 们 准备 删除 这 些 文件 。 这 里 反 转 下 逻辑 ， 不 打印 输出 剩 下 的 好 文件 ， 而 是 打印 出 那 
些 不 符合 要 求 、 准 各 删除 的 文件 。 


import os 
from os.path import join 
for (dirname, dirs, files) in os.walk('.'): 
for filename in files: 
if filename.endswith('.txt"') 
thefile = os.path.join(dirname,filename) 
size = os.path.getsize(thefile) 
if size == 2578 or size == 2565: 
print 'T-Mobile:',thefile 
continue 
fhand = open(thefile,'r') 
lines = list() 
for line in fhand: 
lines.append(line) 
fhand.close() 
if len(lines) == 3 and lines[2].startswith('Sent from my iPhone'): 
print 'iPhone:', thefile 


我 们 得 到 了 一 个 待 删除 的 候选 文件 列表 ， 明 白 了 为 什么 这 些 文件 会 被 删除 。 程 序 运行 结果 如 
下 : 


python txtcheck3 .py 


T-Mobile: ./2006/05/31-05-06_1540001.txt 
T-Mobile: ./2006/05/31-05-06_1648001.txt 
iPhone: ./2007/09/15-09-07_ 074202_03 ,txt 
iPhone: ./2007/09/15-09-07_144641 01.txt 
iPhone: ./2007/09/19-09-07_124857_01.txt 


我 们 可 以 检查 这 些 文件 ， 确 保 没 有 在 不 经 意 间 引入 错误 导致 程序 结束 ， 或 是 由 于 逻辑 问题 导 
致 一 些 文件 被 “ 错 抓 ”。 


当 我 们 对 待 删 除 的 列表 感到 满意 ， 对 程序 做 出 如 下 修改 : 


If size == 2578 or size == 2565: 
print 'T-Mobile:',thefile 
os.remove(thefile) 
continue 


if len(lines) == 3 and lines[2].startswith('Sent from my iPhone'): 
print 'iPhone:', thefile 
os.remove(thefile) 
continue 


在 这 个 版 本 的 程序 中 ， 我 们 不 从 打 印 出 文件 ， 还 使 用 os.remove 移 除 不 符合 要 求 的 文件 。 


python txtdelete.py 
T-Mobile: ./2005/01/02-01-05_1356001.txt 
T-Mobile: ./2005/01/02-01-05_1858001.txt 


出 于 试验 目的 ， 再 运行 一 通 程 序 ， 这 次 不 会 输出 任何 结果 ， 这 是 因为 不 符合 要 求 的 文件 已 经 
被 移 除 过 了 。 


如 果 再 次 运行 txtcount.py，899 个 不 符合 要 求 的 文件 会 被 移 除 。 


python txtcount .py 
Files: 1018 


在 本 节 中 ， 我 们 遵循 一 定 义 理 步 又 。 首 先 ， 使 用 Python 台历 目录 和 文件 来 寻找 模式 ; 然后 ， 
我 们 在 Python 的 帮助 下 ， 确 定 目录 中 哪些 内 容 需要 进行 清理 ， 一 旦 找到 哪些 文件 符合 要 求 ， 
识别 出 哪些 文件 没有 用 ; 最 后 ， 使 用 Python 进行 清理 ， 删 除 那些 没有 用 的 文件 。 


需要 解决 的 问题 可 能 非常 简单 ， 可 能 仅 需 要 查看 文件 名 ， 或 逐个 读 人 文件 ， 查 找 文件 中 存在 
的 模式 。 有 时 ， 你 需要 读 取 所 有 文件 ， 修 改 其 中 一 些 文件 。 当 掌握 了 os.walk 与 其 他 os 实用 工 
具 之 后 ， 这 些 操作 会 变 得 非常 简单 。 


16.3 命 分行 参数 


前 面 章节 中 的 很 多 程序 都 使 用 raw_input 为 文件 名 的 输入 ， 从 文件 读 取 数据 。 整 个 数据 处 理 过 
程 如 下 : 


name = raw_input('Enter file:') 
handle = open(name, 'r') 
text = handle.read() 


对 这 个 程序 做 一 些 简化 ， 在 Python 启动 时 ， 通 过 命令 行 取 得 文件 名 。 运 行 Python 程 序 ， 提 示 
如 下 : 


python words .py 
Enter file: mbox-short .txt 


我 们 可 以 在 Python 文件 后 面 附 加 其 他 字符 串 ， 在 Python 程序 中 访问 这 些 命令 行 参 数 。 下 面 的 
程序 演示 了 从 命令 行 读 取 参 数 : 


import sys 
print 'Count:', len(sys.argv) 
print 'Type:', typel(sys.argv) 
for arg in sys.argv: 

print 'Argument:', arg 


sys.argv 的 内 容 是 一 个 字符 串 列表 ， 其 中 第 一 个 字符 串 是 Python 程序 的 名 称 ，Python 文 件 之 
后 其 他 字符 串 是 命令 行 参数 。 


下 面 的 程序 从 命令 行 读 取 了 几 个 参数 : 


python argtest.py hello there 
Count: 3 

Type: <type 'list'> 

Argument: argtest.py 
Argument: hello 

Argument: there 


这 三 个 参数 作为 三 元 列表 传递 到 程序 中 。 列 表 的 第 一 个 元 素 是 文件 名 (argtest.py) ， 文 件 名 
之 后 的 其 他 两 个 是 命令 行 参数 。 


我 们 重 写 这 个 程序 来 读 取 文 件 ， 从 命令 行 参 数 获得 文件 名 ， 程 序 代码 如 下 : 


import sys 


name = sys.argv[1] 

handle = open(name, 'r') 

text = handle.read() 

print name, 'is', len(text), 'bytes' 


我 们 把 第 二 个 命 合 行 参数 作为 文件 名 ， 在 [0] 处 跳 过 之 前 的 程序 名 。 打 开 文 件 并 污 取 文件 内 容 
的 代码 如 下 所 示 : 


python argfile.py mbox-short.txt 
mbox-short.txt is 94626 bytes 


使 用 命 邻 行 参数 作为 输入 ， 使 得 Python 程序 更 易于 重用 。 特 别 是 对 仅 有 一 个 或 两 个 字符 串 输 
入 的 | 青 况 有 用 。 


16.4 管道 


大 多 数 操作 系统 提供 命令 行 界面 ， 也 被 称 为 Shell。Shell 通 常 提 供 文件 系统 导航 与 应 用 启动 的 
命令 。 例 如 ， 在 Unix 中 ，cd 命 邻 更 改 目录 ，ls 显 示 目 录 的 内 容 ， 键 人 诸如 Firefox 来 启动 网 络 济 


从 Shell 可 以 咎 动 任何 程序 ， 也 可 以 通过 Python 的 管道 (pipe) 来 启动 程序 。 管 道 是 用 来 表示 
正在 运行 的 进程 的 一 个 对 象 。 


例如 ，Unix 的 命令 1ls -| 通常 以 长 格式 显示 当前 目录 的 内 容 。 你 可 以 用 os.open 来 启动 ls 命令 : 


>>> cmd = '1s -1' 
>>> fp = os.popen(cmd) 


参数 是 包含 Shell 命 令 的 字符 串 。 返 回 值 是 一 个 文件 指针 ， 这 个 过 程 就 像 是 打开 一 个 文件 。 通 
ls 进程 ，readline 每 次 读 取 一 行 ， 或 使 用 read 方 法 一 次 性 得 到 全 部 内 容 : 


应 由 


>>> res = fp.read() 


完成 之 后 ， 像 关闭 文件 一 样 关闭 管道 : 


>>> Stat = fp.close() 
>>> print Stat 
None 


返回 值 是 ls 进程 的 最 终 状 态 。None 表 示 正 常 结束 ， 没 有 错误 出 现 。 


16.5 术语 


绝对 路 径 : 从 目录 树 顶 层 开 始 ， 文 件 或 目录 所 在 的 位 置 。 无 论 是 否 在 当前 工作 目录 ， 都 可 以 
访问 到 文件 或 目录 。 


校 验 : 参见 哈 希 算法 (hashing) 。 " 校 验 "这 个 术语 来 自 于 数据 的 验证 需求 ， 当 数据 在 网 络 上 
传送 或 宇和 人 到 备份 介质 后 再 进行 读 取 的 过 程 中 ， 检 查 数据 是 否 存 在 被 筑 改 的 可 能 。 当 数据 写 
入 或 发 送 时 ， 发 送 系统 会 计算 出 校 验 值 ， 一 并 发 送出 去 。 当 数据 读 人 和 收 到 时 ， 接 收 系统 会 
根据 接收 到 的 数据 ， 重 新 计算 校 验 值 ， 与 发 送 来 的 校 验 值 进行 比较 。 如 果 校 验 值 不 匹配 ， 那 
么 就 会 认为 数据 在 传输 过 程 中 被 算 改 了 。 


命令 行 参数 : Python 文件 名 之 后 命令 行 中 的 参数 。 


当前 工作 目录 : 当前 你 "所 在 "的 目录 。 在 大 多 数 系统 的 命令 行 界 面 ， 使 用 cd 命令 更 改 工作 目 
录 。 在 Python 中 ， 仅 使 用 文件 名 打开 文件 ， 并 没有 指定 路 径 信 息 ， 这 时 文件 必须 在 当前 运行 
程序 的 工作 目录 下 。 


哈 希 算法 : 读 取 潜 在 的 大 量 数据 ， 为 数据 生成 一 个 唯一 的 校 验 值 。 最 佳 的 哈 希 函 数 只 产生 很 
少 的 "冲突 ”。 这 里 的 冲突 是 指 哈 希 函 数 对 两 个 不 同 的 数据 流 ， 产 生 相 同 的 哈 希 值 。MD5、 
SHA1 和 SHA256 是 常用 的 哈 希 算法 。 


管道 : 与 正在 运行 的 程序 进行 连接 的 通道 。 通 过 管道 ， 你 可 以 编写 程序 来 发 送 数据 给 其 他 程 
序 ， 或 从 其 他 程序 接收 数据 。 管 道 与 套 接 字 类 似 ， 但 是 管道 只 能 用 于 同一 台 计 算 机 上 程序 之 
间 的 连接 ， 也 就 是 说 不 能 通过 网 络 进行 连接 。 


相对 路 径 : 相对 于 当前 的 工作 目录 ， 文 件 或 目录 所 在 的 位 置 。 


shell : 操作 系统 的 命令 行 界面 。 在 一 些 操作 系统 中 称 为 "终端 程序 "。 在 命令 行 界面 中 ， 输 入 
一 条 命令 和 参数 ， 然 后 按 下 回 车 键 来 执行 这 条 命令 。 


通 历 : 访问 整个 目录 树 、 子 目录 以 及 子 目录 的 子 目 录 ， 直 到 访问 到 所 有 的 目录 。 这 称 之 为 " 通 
历 目录 树 ”。 


16.6 练习 


习题 16.1 : 大 量 MP3 文 件 集合 中 可 能 存在 相同 歌曲 的 多 个 副本 ， 存 储 于 不 同 的 目录 或 者 以 不 
同 的 文件 命名 。 这 个 练习 的 目标 是 找到 重复 的 MP3 文 件 。 


1.， 编写 一 个 程序 ， 通 历 一 个 文件 夹 及 其 子 文件 夹 中 的 所 有 以 .mp3 后 级 结尾 的 文件 ， 并 列 出 
相同 大 小 的 一 对 对 文件 。 提 示 : 使 用 字典 ， 字 典 的 键 是 从 os.path.getsize 得 到 的 文件 大 
小 ， 字 典 的 值 是 文件 名 与 路 径 名 的 结合 。 每 遇 到 一 个 文件 ， 检 查 其 是 否 与 已 知 文件 的 大 
小 相同 。 如 果 大 小 相同 ， 得 到 一 个 重复 大 小 的 文件 ， 打 印 该 文件 大 小 与 两 个 文件 的 名 称 
(一 个 来 自 哈 希 ， 另 一 个 是 你 正在 查看 的 文件 ) 。 

2.， 修改 之 前 的 程序 ， 用 哈 希 或 校 验算 法 查看 重复 内 容 的 文件 。 例 如 ，MD5 (Message- 
Digest algorithm 5, 消息 摘要 算法 第 五 版 ) 接受 任意 长 度 的 消息 ， 返 回 一 个 128 位 的 校 验 
值 。 不 同 内 容 的 两 个 文件 返回 相同 校 验 值 的 可 能 性 非常 小 。MD5 的 具体 内 容 详 见 
http://wikipedia.org/wiki/Md5。 以 下 代码 片段 打开 一 个 文件 ， 读 入 内 容 ， 计 算 校 验 值 。 


Import hashilib 


fhand = open(thefile,'r') 

data = fhand.read() 

fhand.close() 

checksum = hashlib.md5(data).hexdigest() 


新 建 一 个 字典 ， 包 含 校 验 值 作为 键 ， 文 件 名 作为 值 。 当 计算 了 校 验 值 ， 它 就 作为 字典 的 键 存 
在 ， 有 两 个 文件 内 容重 复 ， 因 此 打印 出 字典 中 的 文件 和 刚才 阅读 的 文件 。 在 图 像 文件 的 文件 
夹 下 运行 程序 ， 结 果 如 下 所 示 : 


./2004/11/15-11-04_0923001.jpg ./2004/11/15-11-04_1016001.jpg 
./2005/06/28-06-05_1500001.jpg ./2005/06/28-06-05_1502001.jpg 
./2006/08/11-08-06_205948_01.jpg ./2006/08/12-08-06_155318_02.jpg 


很 显然 ， 我 重复 提交 了 相同 的 照片 ， 没 有 及 时 删除 之 前 的 拷贝 。 


1. 当 使 用 管道 与 操作 系统 命令 〈 如 ls) 对 话 时 ， 有 一 点 很 重要 ， 了 解 正在 使 用 的 操作 系 
统 类 型 ， 使 用 管道 打开 操作 系统 支持 的 命令 。 ee 


附录 A Windows 平 台 上 的 Python 编程 


本 附录 介绍 在 Windows 上 运行 Python 的 一 系列 步骤 。 你 可 以 采用 许多 种 方法 做 到 这 一 点 ， 但 
这 是 一 种 让 事情 保持 简单 的 方法 。 


首先 ， 你 需要 安装 一 个 程序 员 专 用 的 编辑 器 。 不 要 使 用 记事 本 或 微软 的 Word 字 处 理 软 件 来 纺 
辑 Python 程 序 。 程 序 必须 是 "平面 的 "文本 文件 ， 因 此 你 需要 的 是 一 个 擅长 编辑 文本 文件 的 编辑 
器 。 


我 们 在 Windows 平 台 上 推荐 NotePad++， 从 以 下 网 址 下 载 与 安装 : 
http://sourceforge.net/projects/notepad-plus/files/ 


从 www.python.org 网 站 下 载 Python 2 的 最 新 版 本 。 
http://www.python.org/download/releases/2.7.5/ 


安装 好 Python 之 后 ， 计 算 机 上 会 出 现 类 似 的 新 文件 夹 C:\Python27。 


新 建 一 个 Python 程序 ， 从 开始 菜单 运行 NotePad++， 采 用 “.py" 后 缀 保存 文件 。 这 个 练习 中 ， 
在 桌面 创建 一 个 py4inf 文 件 夹 。 文 件 夹 名 越 短 越 好 ， 不 要 在 文件 夹 和 文件 名 中 留 空 格 。 


编写 第 一 个 Python 程序 如 下 : 


print 'Hello Chuck' 


这 里 你 能 做 的 就 是 修改 成 你 自己 的 名 字 。 将 程序 文件 保存 在 Desktop\py4infprog1.py。 
在 命令 行 运行 程序 ，Windows 不 同 版 本 的 操作 有 些许 差别 。 


e。 Windows Vista 与 Windows-7: 按 下 “开始 "按钮 ， 在 命令 搜索 窗口 输入 "command" 一 词 ， 然 
后 按 回 车 键 。 
e Windows-XP: 按 下 “开始 "按钮 ， 然 后 点 “运行 "， 在 对 话 框 输 入 cmd， 然 后 点 “OK”。 


此 时 出 现 一 个 文本 窗口 ， 并 提示 当前 所 在 的 文件 夹 。 


。 Windows Vista 与 Windows-7 的 文件 夹 位置 是 : C:\Users\csev 
。 Windows XP 的 文件 夹 位 置 是 : C:\Documents and Settings\csev 


这 就 是 你 的 “ 主 目 录 ”。 现 在 我 们 需要 进入 刚才 保存 Python 程 序 的 文件 夹 ， 使 用 以 下 命 合 : 


C:\Users\csev\> cd Desktop 
C:\Users\csev\Desktop> cd py4inf 


然后 输入 


C:\Users\csev\Desktop\py4inf> dir 


列 出 当前 文件 下 的 所 有 文件 。 当 输入 dir 命 售后 ， 你 应 该 看 到 prog1.py 文 件 了 。 执行 这 个 程 
序 ， 只 需 在 命令 行 输 入 文件 名 ， 然 后 按 回 车 键 。 


C:\Users\csev\Desktop\py4inf> prog1.py 
Hello Chuck 
C:\Users\csev\Desktop\py4inf> 


你 可 以 在 NotePad++ 里 编写 文件 ， 保 存 它 。 然 后 ， 切 换 到 命令 行 窗 口 ， 在 命令 行 提示 符 义 ， 
输入 文件 名 再 次 执行 程序 。 


如 果 你 被 命 合 行 窗口 搞 混 了 ， 没 关系 ， 关 闭 它 再 打开 一 个 即 可 。 
提示 : 在 命令 行 使 用 向 上 箭头 "可 以 回 深 和 执行 之 前 输入 的 命 人 。 


另外 ， 建 议 在 NotePad++ 的 偏好 设置 中 将 Tab 字 符 设 置 为 4 个 空格 。 这 将 节省 大 量 由 于 缩 进 名 
误导 致 的 时 间 花 费 。 


Python 程 序 编辑 与 执行 的 更 多 信息 ， 请 参见 http://www.py4inf.com。 


附录 B Mac 平 台 上 的 Python 编程 


本 附录 介绍 在 Mac 上 运行 Python 的 系列 步 又。 由 于 Mac 操 作 系 统 已 经 包含 了 Python， 所 以 只 
需 学 习 如 何 编辑 Python 文件 和 在 终端 窗口 执行 Python 程序 。 


在 Python 程序 编辑 与 执行 的 众多 方法 中 ， 这 仅 是 我 们 找到 的 一 种 非常 简单 的 方法 。 


首先 ， 需 要 安装 一 个 程序 员 用 的 文本 编辑 器 。 不 要 使 用 TextEdit 或 微软 的 Word 字 义理 软件 来 编 
辑 程 序 。 程 序 必须 是 “ 平 的 "文本 文件 ， 因 此 你 需要 的 是 一 个 善于 编辑 文本 文件 的 编辑 器 。 


我 们 在 Mac 平 台 上 推荐 TextWrangler， 从 以 下 网 址 下 载 与 安装 : 
http://www.barebones.com/products/TextWrangler/ 


新 建 一 个 Python 程 序 ， 从 应 用 文件 夹 中 运行 TextWrangler。 


编写 第 一 个 Python 程 序 : 


print 'Hello Chuck' 


这 里 你 能 做 的 就 是 修改 成 你 自己 的 名 字 。 将 程序 文件 保存 在 桌面 ， 命 名 为 py4inf。 文 件 夹 名 越 
短 越 好 ， 不 要 在 文件 夹 和 文件 名 中 留 空格 。 


a A oe dh 
入 “terminal” (也 可 输入 中 文 “终端 ") 启动 终端 窗口 。 


这 就 是 你 的 “ 主 目录 "。 在 终端 窗口 输入 pwd 命 令 查 看 当前 目录 。 


67-194-80-15:~ csev$ pwd 
/Users/csev 
67-194-80-15:~ csev$ 


必须 在 包含 Python 程序 的 文件 夹 下 执行 该 程序 。 我 们 使 用 cd 命令 移动 到 一 个 新 的 文件 夹 ， 然 
后 用 ls 命令 列 出 文件 夹 下 的 文件 。 


67-194-80-15:~ csev$ cd Desktop 
67-194-80-15:Desktop csev$ cd py4inf 
67-194-80-15:py4inf csev$ ls 
prog1.py 

67-194-80-15:py4inf csev$ 


在 命 合 提 示 符 处 ， 只 需 输 入 python 命 命 来 执行 程序 ， 后 面 跟 程序 文件 名 ， 然 后 按 回 车 键 。 


67-194-80-15:py4inf csev$ python prog1.py 
Hello Chuck 
67-194-80-15:py4inf csev$ 


在 TextWrangler 编 辑 Python 程序 文件 ， 保 存 它 ， 然 后 切换 到 命令 行 窗口 ， 在 命令 行 提 示 符 
处 ， 键 入 文件 名 再 次 执行 程序 。 


提示 : 在 命令 行使 用 “向 上 箭头 "可 以 回 滚 和 执行 之 前 输入 的 命令 。 
另外 ， 建 议 在 TextWrangler 的 偏好 设置 中 将 Tab 字 符 设 置 为 4 个 空格 。 这 将 节省 大 量 由 于 缩 进 
鞭 误 导致 的 时 间 花 费 。 


Python 程序 编辑 与 执行 的 更 多 信息 ， 请 参见 http://www.py4inf.com。 
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《思考 Python》 序 


《思考 Python》 怪 史 


(Allen B. Downey) 


1999 年 1 月 我 准备 讲授 一 门 Java 编 程 人 门 课程 。 我 已 经 讲 过 三 通 ， 但 兮 我 很 租 来 。 课 程 的 失败 
比例 太 高 ， 即 便 是 成 功 的 学 生 也 感觉 不 好 ， 整 体 的 成 就 感 非常 低 。 


我 认为 问题 之 一 是 教材 。 它 们 都 是 大 部 头 ， 介 绍 了 太 多 不 必要 的 Java 细 节 ， 并 没有 给 出 足够 
多 的 如 何 编程 的 高 水 平 的 引导 。 学 生 都 体验 到 陷阱 门 效应 : 他 们 一 开始 觉得 容易 ， 循 序 浙 
进 ， 然 后 到 第 五 章 左右 就 脱 队 了 。 学 生得 到 很 多 新 内 容 、 进 度 太 快 了 ， 我 得 用 学 期 剩 下 的 时 
间 收 拾 残局 。 

在 第 一 次 课 之 前 的 两 周 时 间 ， 我 决定 宇 一 本 我 自己 的 书 。 我 的 目标 是 : 

。 保持 简短 。 学 生 读 10 页 比 读 50 页 的 效果 要 好 。 

。 谨慎 使 用 术语 词汇 。 我 尽量 少 用 行 话 ， 在 第 一 次 使 用 每 个 术语 进行 定义 。 

。 循序 渐进 。 为 避免 陷阱 门 ， 我 将 最 困难 的 主题 分 解 成 一 系列 小 的 步骤 。 

。 专注 于 编程 ， 而 不 是 编程 语言 。 我 只 讲解 Java 有 用 的 最 小 子 集 ， 其 他 不 涉及 。 

我 需要 一 个 书 名 ， 一 时 兴起 ， 想 出 了 《 像 计算 机 科学 家 一 样 思 考 》 这 么 一 个 名 字 。 第 一 个 版 
本 非常 粗糙 ， 但 是 起 作用 了 。 学 生 真 得 读 进 去 了 ， 他 们 能 充分 理解 我 在 课堂 上 花 时 间 讲 授 的 
复 杀 主题 ， 有 趣 的 主题 和 最 重要 的 部 分 留 给 他 们 下 去 练习 。 


我 使 用 GNU 自 由 文档 许可 发 布 这 本 书 ， 人 允许 用 户 复制 、 修 改 和 分 发 这 本 书 。 


接 下 来 发 生 的 事情 是 最 酷 的 部 分 。 一 位 弗吉尼亚 州 的 高 中 老 羡 Jeff Elkner 改 编 了 我 的 书 ， 把 它 
改编 成 Python 语言 。 他 发 给 我 一 份 译 稿 ， 我 通过 阅读 自己 的 书 来 学 习 Python， 这 是 多 人 么 不 寻 
常 的 体验 啊 。 


Jeff 和 我 修订 了 这 本 书 ， 加 入 了 Chris Meyers 的 一 个 案例 研究 。2001 年 我 们 还 是 以 GNU 自 由 文 
档 协 议 发 布 了 《 像 计 算 机 科学 家 一 样 思考 : 学 习 Python》。 通 过 绿茶 出 版 社 ， 我 出 版 了 这 本 
书 ， 开 始 在 Amazon.com 和 大 学 书店 出 售 纸 质 书 。 绿 茶 出 版 社 出 版 的 其 他 书籍 详 见 


http://greenteapress.com。 


2003 年 我 开始 在 奥 林 学 院 教 书 ， 第 一 次 讲授 Python。 和 与 Java 的 对 比 是 惊人 的 。 学 生 挣 扎 更 
少 ， 学 到 更 多 ， 开 发 了 更 多 有 趣 的 项 目 ， 总 体 而 言 乐趣 更 多 。 


在 过 去 5 年 里 ， 我 不 断 修 订 这 本 书 ， 纠 错 和 改进 一 些 示例 ， 增 加 内 容 ， 特 别 是 练习 。2008 年 我 
开始 了 一 个 重大 版 本 修订 ， 与 此 同时 剑桥 大 学 出 版 社 一 位 编辑 联系 我 ， 对 出 版 此 书 新 版 表达 
出 兴趣 。 多 好 的 时 机 ! 


我 希望 你 能 喜欢 本 书 ， 它 能 帮助 你 学 习 编程 与 思考 ， 至 少 有 那么 一 点 点 像 计 算 机 科学 家 。 


《思考 Python》 致 谢 


(Allen B. Downey) 


首先 也 是 最 重要 的 ， 我 要 感谢 Jeff Elkner， 他 将 我 的 Java 书 翻译 成 Python 版 本 ， 促 使 这 个 项 目 
得 以 启动 ， 也 让 我 转 到 了 自己 最 喜欢 的 语言 。 


我 也 要 感谢 Chris Meyers, 他 贡献 了 《 像 计算 机 科学 家 一 样 思考 》 的 若干 节 内 容 。 
我 要 感谢 自由 软件 基金 会 提出 的 GNU 自 由 文档 许可 协议 ， 这 让 我 与 Jeff 和 Chris 共 事 成 为 可 


能 。 
我 还 要 感谢 《 像 计 算 机 科学 家 一 样 思考 》 的 Lulu 网 责任 编辑 。 


我 要 感谢 所 有 参与 到 本 书 早期 版 本 编写 的 学 生 ， 所 有 提交 勘误 与 建议 的 贡献 者 名 字 显 示 在 附 
录 中 。 


我 要 感谢 我 的 妻子 Lisa 为 本 书 的 付出 ， 还 有 绿茶 出 版 社 和 其 他 所 有 提供 帮助 的 人 。 
Allen B. Downey Needham MA 
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在 过 去 几 年 间 ， 有 100 多 位 眼光 敏锐 、 有 想法 的 读者 给 出 建议 和 提交 勘误 。 他 们 对 这 个 项 目的 
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